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إن العمل الذي بين يدي القارئ هو ترجمة من اللغة الصينية مف عن علم الذخائر 
اللغوية. يعبر علم الذخائر اللغوية من العلوم اللغوية التأسيسية التي dual ys pope Sach‏ 
اللغة في بيئتها الطبيعية» بعيدا عن القياس اللغوي المنطقي الذي ساد في حقل 
الدراسات اللغوية قرونًا عدة. إن علم الذخائر اللغوية علم يبحث في كيفية جمع النصوص 
اللغوية الطبيعية وتهيئتها وترميزها؛ بحيث تكون صالحة للبحث اللغوي ودراسة الظواهر 
اللغوية الطبيعية على مستوى أفرع علم اللغة بنظرياته وتطبيقاته الي يکل عانم 
الذخائر اللغوية. ياعتباره أحد المنهجيات التي تمهد راسا اللغة الطبيعية بشكل 
موضوعيء مكانة متقدمة في حقل اللسانيات الحديثة. وقد استثمرت ت منهجية الذخائر 
اللغوية في الأبحاث اللغوية التي تحدم علم اللغة التطبيقي بأفرعه المخظقة وفي مقدمتها 
اللغويات الحاسوبية؛ وصتاعة المعاجم» وعلم المصطلحء وتعليم اللغات لأهلها أو 
للأجانب» والترجمة تعليمًا وممارسةء وما إلى ذلك. والجدير بالذكر أن هذا العلم قد نما 
وتطور تحت مظلة علم اللغة الحاسوبي. 
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كلمة المترجم 


A‏ علم الذخائر اللغوية!) من العلوم اللغوية التأسيسية التي تُرَمئخ 
مفهوم دراسة اللغة في بيئتها ١‏ لطبيعيةء بعيدا عن القياس اللغوي المنطقي 
الذي ساد في حقل الدراسات اللغوية Goh‏ عدة. إن علم الذخائر asl‏ 
الذي De‏ له عالم اللغة الإنجليز ي ليتش (Leech)‏ في النصف الثاني من 
القرن العشرينء هو علم يبحث في كيفية جمع النصوص اللغوية الطبيعية 
وتهيئتها وترميزها؛ بحيث تكون صالحة للبحث اللغوي ودراسة الظواهر 
اللغوية الطبيعية على مستوى أفرع علم اللغة بنظرياته وتطبيقاته الحديثة. 
يحتل علم الذخائر اللغوية- باعتباره أحد المنهجيات التي تمهد لدراسة اللغة 
الطبيعية بشكل موضوعي- مكانة متقدمة في حقل اللسانيات الحديثة. ولا 
غنى للباحث اللغوي عن التعرف على مفاهيم هذا العلم وفنياته وتطبيقاته» بل 
AM oly Goby‏ اللغوية بأحجامها المختلفة لخدمة أغراض بحثية معينة. 


)١(‏ لمزيد من المعلومات عن تأصيل مصطلح "الذخائر اللغوية انظر: 
هشام موسى المالكيء "إشكاليات تهيئة الذخائر اللغوية وبنائها حاسوبيًا -اللغقان 
العربية والصينية- نموذجًا": مجلة أواصرء المجلد الثاني؛ المركز القومي للترجمة». 
Veo 00‏ ص .٥٦-۲۸‏ 

eae al gall عمل أستاذا‎ VATA من مواليد‎ ‘(Geoffry Leech) جيفري ليتش‎ (X) 
٠7 حتى‎ ١5175 الإنجليزية الحديثة بجامعة لانكاستر البريطانية في الفترة من‎ 
T ٠7 ويعمل أستاذا متفرغا بقسم اللغويات واللغة الإنجليزية بالجامعة نفسها منذ‎ 
الآن» كما أنه عضو بالأكاديمية النرويجية للعلوم والآداب.‎ 
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فالذخيرة اللغوية» وفقًا لمفاهيم علم الذخائر اللغوية» هي بناء لغوي 
يتمتع بمواصفات ومعايير فنية تجعله قادرًا على. استيعاب النصوص اللغوية 
وإتاحتها للبحث اللغوي العام والخاص. وينبغي أن تخضع النصوص اللغوية 
التي يحتويها هذا البناء إلى قواعد معينة من حيث أساليب الجمع؛ ونسّب 
التمثيل؛ وطرق المعالجة قبل عملية الجمع وبعدهاء ومنهجيات الترميز 
والأساليب التي يتم على أساسها عمليات الاستعلام والاستدعاء حسب 
متطلبات البحث اللغوي. 

yl aby‏ منهجية الذخائر اللغوية في الأبحاث اللغوية التي تخدم 
علم اللغة التطبيقي بأفرعه المختلفة وفي مقدمتها اللغويات الحاسوبية؛ 
وصناعة المعاجم وعلم المصطلح» وتعليم اللغات لأهلها أو للأجانب» ٠:‏ 
والترجمة تعليمًا وممارسة» وما إلى ذلك. والجدير بالذكر أن هذا العلم قد نما 
وتطور تحت مظلة علم اللغة الحاسوبي. وقد تفاعل العلْمَّين معًا أخذا وعطاء 
على مدى ما يزيد عن نصف قرن؛ حيث ساهم علم الذخائر اللغوية بما CB‏ 
من مفاهيم ومنهجيات في تطوير آليات علم اللغة الحاسوبي في التعامل ممع 
المادة اللغوية الطبيعية موضع البحث سواء على المستوى الشفهي أو 
المستوى التحريري. وعلى الجانب الآخرء فقد ساهم تطور علم اللغة 
الحاسوبي الذي تواكب مع تطور إمكانات الحاسوب في تقديم الأدوات التقنية 
التي كان لها أكبر الأثر في تقدم مفاهيم ونظّم بناء الذخائر اللغوية. وعلى هذا 
الأساس» يمكننا القول بوجود علاقة طردية بين المجالينء تجعل كلا منهما 
يؤثر في الآخر دفعًا وتطويرا. 


وعلى الرغم من ذلك فإنني أنظر إلى هذا العلم بمفاهيمهء وآلياتهء 
ونطزياته :من خلال eR Py‏ الذخاشر اللقوئة: تحرج من 
إطار اللغويات الحاسوبية لتشمل البحث العلمي في كل ما يتصل بالإنتاج : 
اللغوي عند أي جماعة لغوية سواء في اتجاه أحادي؛ أو في اتجاه تقابلي أو 
مقارن مع لغات أخرى. وأخصٌ بذلك مجالات الإبداع الأدبي وبخاصة ما 
يتعلق بالنقد الأدبي وتحليل النصوص الأدبية؛ حيث تَمَكن أدوات هذا العلم 
الباحث من جمع النصوص الإبداعية بأنواعها المختلفة وتهيئتها للبحسث 
العلميء وتطوير آليات البحث فيها عن طريق ترميزها بمنهجيات مختلفة 
تتيح الفرصة لإجراء عمليات استعلام متعددة الوظائف عليها لاستخراج 
pal lal‏ الأنبية» والخصائمن: الأسلزبية للتضوض pata ya‏ تيل KW gb‏ 
LS‏ يمكن أن تمتد فائدته لدراسة النصوص الدينية وتفسيراتها أو ترجماتها 
المختلفة بغرض الوقوف على أوجه التشابه والاختلاف بين التفاسير أو 
الترجمة؛ أو جمع النصوص التراثية وتحليلها من وجهة نظر علم اللغة 
التداولي» وتحقيقها وما إلى ذلك من قضايا بحثية. وتحقيق تلك القضايا 
البحثية بالطرق التقليدية لا يتيح الوصول إلى النتائج المرجوة إلا بعد 
استنزاف وقت وجهد طائلين من الباحثينء بالإضافة إلى تحجيم نطاق النتائج 
التي يتم تحقيقهاء فضلاً عن عدم وجود تراكم للنصوص المدروسةء التي لا 
i‏ علم الذخائر اللغوية بما يُمَكّن من الاستعانة بها في 
مستويات بحثية أخرى. 

والعمل الذي بين يدي القارئ هو ترجمة من اللغة الصينية لمؤلف عن 
علم الذخائر اللغوية الذي ترجع أصوله إلى اللغة الإنجليزية» ثم أخذ رحلته 
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ف التطور والارتقاء عبر لغات مختلفة سواء من حيث التأليف وعقد سلاسل 
المؤتمرات الدورية المتخصصة:؛ أو من حيث مشروعات الذخائر اللغوية 
الضخمة التي تنشئها الدول وترعاها وتمولها بأموال طائلة؛ تمهيذا لطرحها 
للاستخدام على مستويات بحثية مختلفة. وهنا قد يتبادر إلى الذهن سؤال عن 
الدافع وراء ترجمة هذا العلم عن اللغة الصينية؟ فما دام أن علم الذخائر 
اللغوية قد نقل إلى الصين عن اللغة الإنجليزية» فلماذا لا ننقل عن اللغة 
الإنجليزية مباشرة؟ والإجابة على هذا السؤال ألخصها في النقطتين التاليتين: 
أولاً: على الرغم من كثرة المتعاملين باللغة الإنجليزية واللغات 
الهندأوروبية والمترجمين عنهاء ففي حدود المعلومات المتوفرة لديء لم يتقدم 
أحد بطرح فكرة ترجمة كتاب عن هذا العلم عن أية لغة من اللغات. ويرجع 
السبب في ذلك إلى عدم وجود قسم علمي متخصص للغويات الحاسوبية في 
الجامعات المصرية؛ مع ندرة الكوادر المتخصصة في هذا المجال في مصرء 
والذين تتلقفهم الدول الأجنبية فيذهبون للبحث في الجامعات الأجنبية هَربًا من 
البيئة المحلية غير المُّهيّئة للعمل العلمي المشضبط في مجال اللغويات 
الحاسوبية؛ الأمر الذي أدى إلى وجود حالة من التضارب المفهومي 
والاصطلاحي في مؤلفاتنا اللغوية الحديثة فيما يتعلق بمنهجيات هذا العلم 
وأهميته وطرق توظيفه في البحث اللغوي التطبيقي. ومن وجهة نظريء» 
ii‏ هذا الوضع أحد أسباب تراجع حال البحث اللغوي في اللغة العربية 
بالمفاهيم الحديثة لعلم اللغة» ونَّوَجُه اللغويين لدينا إلى اتخاذ موقف الحاكي . 
عن تجارب الدول فيما يتعلق بعلم اللغة الحديث» بدلا من صر المشهدء 
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وتولي مسئولية الفعل والتطبيق؛ وذلك باستثناء عدد قليل من الباحثين CAN‏ 
يعملون بشكل منفرد. وذلك على خلاف ما يحدث على صعيد اللغات 
الأخرى. بالإضافة إلى ذلك تنعدم التطبيقات اللغوية النابعة من احتياجاتتا 
الواقعية» الأمر الذي أدى إلى حالة من التبعية الدائمة للشركات الأجنبية في 
كل ما يتعلق بالتطبيقات اللغوية التقنية التي تتعامل مع اللغة العربية سواء 
على مستوى مشروعات البرمجيات الحاسوبية التي تتعامل مع اللغة الطبيعية؛ 
أو على مستوى التعامل المتقدم باللغة العربية على محركات البحث عبر 
الشبكةء وما إلى ذلك من تطبيقات حققت نتائج غير مسبوقة في لغات أخرى. 
ثانيًا: إن النقل عن اللغة الصينية ليس كما يتبادر إلى ذهن العامة من 
أن الصين هي تلك الدولة البعيدة التي تنتمي إلى دول العالم الثالث؛ التسي 
تُصَدّر لنا "فوائيس رمضان" والسلع رخيصة الثمن "المضروبة" أو تلك 
الدولة التي تمتلك لغة صعبة مفرداتها عبارة عن مجموعة هائلة من الرسوم 
توقفت عن النمو وملاحقة ركب التطور اللغوي منذ مئات القرون» وما إلى 
ذلك من مفاهيم مغلوطة مرجعها إلى توجهنا الدائم بأنظارنا إللى الغرب»: 
وتمحور اهتمامنا في التعلم من ذلك المكان الذي تغرب فيه الشمسء علمًا بأن 
الشمس تشرق دائمًا من الشرق. إن اللغة الصينية هي أثمن ما تملكه تلك 
الدولة البعيدة الغنية بمواردها البشرية التي تجعل تجربة النقل عنهم تجربة 
ثرية على الرغم من صعوبتها بل استحالتها في بعض الأحيان إذا ما قورنت 
بلغات أخرى كالإنجليزية. ولكن ما يزيد التجربة ثراءَ هو نقل ذلك الفهم لعلم: 
الذخائر اللغوية لدى الصينيين الذين نجحوا بالفعل في معالجة قضايا شائكة 
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أصعب ما تكون مقارنة بما تعانيه اللغات الأخرى. فقد كانت تجربتهم في 
معالجة اللغة الصينية اعتمادًا على الذخائر اللغوية في المقام الأول» ثم 
٠‏ انطلقت المراكز البحثية والجامعات بقوافل من الباحثين وأعداد هائشة من 
المؤتمرات المتخصصة:؛ وفي النهاية توصلوا إلى توطين مفهوم علم الذخائر 
اللغوية. الأمر الذي قادهم إلى التوصل إلى حلول جذرية لمشكلات المعالجة 
الآلية للغة الصينية الطبيعية على جميع الأصعدة على الرغء مسن صعوبة 
لغتهم؛ ولذلك أرى أن تجربة النقل عن اللغة الصينية فيها من الثراء ما لا 
يمكن أن يوجد إذا نقلت عن الإنجليزية صاحبة الفكرة الأساسية. 

فالصينيون نجحوا في توطين علم الذخائر اللغوية وتوظيفه بشكل 
glace‏ وأنتجوا من خلاله التطبيقات الحاسوبية التي تَعَبّر عن هويتهم الذاتية 
في حل الإشكاليات ذات الخصوصية اللغوية» وعلى رأسها التمييز الآلي 
لحدود الكلمات في النصوص التحريرية المكتوبة باللغة الصينية» أو التمييز 
الآلي للغة التحريرية سواء المكتوبة بحروف مطبعية أو بخط اليد وأنظمة . 
إدخال اللغة إلى الحاسب الآلي» أو إدارة الاستعلامات المتقدمة باللغة الصينية 
عبر الشبكة» أو التواصل بين العنصر البشري والآلةء وما إلى ذلك؛ الأمر 
الذي مكن الصينيين من إضافة بصمة واضحة المعالم في الوعاء المعرفي 
لعلم الذخائر اللغوية. 

ومن هنا ds‏ لدي الدافع الأول لمبادرة توطين هذا العلم في اللغة 
العربية. مما جعلني أتحمس لمبادرة ترجمة هذا الكتاب عن اللغة الصينية بعد 
ما شاهدته في أثناء تعاملي مع الصينيين العاملين في مجال اللغويات 
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الحاسوبية في رحلات علمية مختلفة إلى الصين من اهتمام بحثي ومتابعة 
لأحدث التطورات العالمية في علم الذخائر اللغوية. بالإضافة إلى أن اللغة 
الصينية هي اللغة التي أتخصص في الترجمة منها وليست الإنجليزية فضلاً 
عن السبب الذي سبق ذكره من عدم مبادرة العاملين في الترجمة عن 
الإنجليزية أو اللغات الأخرى وما أكثرهم بتقديم هذا العلم وترجمة أحد هذه 
المؤلفات وتوطين مفهوم علم الذخائر اللغوية في الوعاء المعرفي للغبة 
العربية. وهذا الكتاب هو الكتاب الأول الذي تتم ترجمته إلى اللغة العربية في 
مجال علم الذخائر اللغوية» على أمل أن تؤدي تجربة الترجمة إلى نقل المزيد 
من المؤلفات عبر لغات أخرىء وإلى التأليف باللغة العربية. وقد رأيت 

بنفسي أنه بقدر اهتمام الدول بعلم الذخائر اللغوية وتطوير آلياته» بقدر تطور 
لبحث اللغوي التطبيقي للغاتها. وبقدر الفهم المتعمق لأي عالم من علماء 
, اللغويات لمفاهيم هذا العلم ومنهجياتهء وآلياته» بقدر تعاظم ما يمكن أن يصل 
إليه من نتائج تطبيقية. وبقدر ما تهتم به الدول» بقدر ما ترقى لغاتها إلى 
مستوى الدخول في عصر المعلومات. 

والمُؤلف الرئيس لهذا الكتاب هو الأستاذ الدكتور خوانغ تشانغ نينغ» 
أحد أشهر علماء اللغة الحاسوبيين في الصين. ولد خوانغ تشانغ نينغ عام 
۷ في مقاطعة جوانغ دونغ» وفي عام ۱۹١١‏ تخرج في قسم المحركات 
الكهربية بجامعة تشينغ خوا ببكين. وفي عام ۱۹۸١‏ سافر في بعثة إلى 
جامعة ڍJı (Yale.University)‏ بالولايات المتحدة الأميركية لمدة عام» وعمل 
في التدريس لمدة عام بجامعة العلوم والتكنولوجيا بهونج كونج عام VAAN‏ 
وفي عام ۱۹۹۹ء عمل مدير لمركز أبحاث شركة ميكروسوفت في الصين. 
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ويَنْظْر إليه الصينيون باعتباره ممهد الطريق لتوطين علوم المعالجة الآلية 
للغات الطبيعية في الصين . في سبعينيات القرن العشرين؛ ذاع صيته كأستاذ 
متميز في جامعة تشينغ خوا عندما ألف ie‏ ((دوائر الترانزستور))؛ حيث 
حقق هذا المقرر مبيعات زادت عن مليون نسخة داخل الصين. وبعد ذلك» 
قَتَمَّ ترجمة لكتابين أحدثا أثرًا كبيرًا في المجتمع العلمي الصيني هما كتاب 
((مبادئ الذكاء الاصطناعي))؛ وكتاب ((البرمجة باس تخدام لغة «1:15))؛ 
ليملا بذلك الفراغ العلمي الموجود في تلك الفترة. 

وقد وصل خوانغ تشانغ نينغ إلى قمة أخرى من قمم الشهرة العلمية 
عندما عمل في حقل الدراسات المتغلقة بعلم معالجة اللغات الطبيعية؛ حيث 
بدأ بتنظيم مجموعات بحثية داخل الصين وخارجها في هذا المجال» ثم تولى 
رئاسة العديد من المؤتمرات الدولية وهيئات المبرمجين في مجال المعالجة 
الآلية للغات الطبيعية. ويتولي خوانغ تشانغ نينغ الآن رئاسة تحرير ((المجلة 
العلمية للمعلوماتية الصينية))؛ بالإضافة إلى كونه مُحكمًا وعضو هيئة تحرير ‏ 
العديد من المجلات العلمية الدولية مثل ((المجلة التخصصية في معالجة 
المعلومات باللغات الآسيوية 4©24)) بالولايات المتحدة الأميركية» و((النشرة 
الدورية لجمعية معالجة المعلومات باللغفة الصينية واللغات الشرقية)) 
بسنغافورة» ومجلة ((معالجة اللغات الظبيعية)) باليابانء ومجلة ((دراسات 
نقدية حول علم اللغة في الصين)) بهونج كونج» ومجلة ((علم اللغة الحاسوبي 
ومعالجة اللغات الصينية)) بتايوان(". 


)١(‏ لمزيد من المعلومات عن المؤلفء انظر الموسوعة الصينية على الرابط التالي: 
http://baike.baidu.com/view/1615502.htm‏ 
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وقد شارك خوانغ تشانغ نينغ في مشروعين بحثيين في إطار الخطة 
الخمسية السابعة للحكومة الصينية عام ١۱۹۸ء‏ هي: مشروع "الفهم الآألي 
للغات الطبيعية والبرامج البينية بين الإنسان والآلة" وكان ذلك في نطاق 
مشروعات العصف الذهني» ومشروع 'تقنيات الفهم الآلي Vagal‏ 
العسكرية" في نطاق المشروعات البحثية المستقبلية للدفاع الوطني؛ بالإضافة 
إلى مشروع "نظام للترجمة الآلية بين اللغتين الصينية واليابانية" بالتعاون بين 
جامعتي تشينغ خوا ونانكين الصينيتين. وقد حصل هذا المشروع على المركز 
الثاني في مجال تطوير العلوم والتكنولوجيا من لجنة التعليم بالحكومة الصينية. ' 

وقد سبق أن تولى خوانغ تشانغ نينغ رئاسة الفريق البحشي الصيني 
الذي كلف من وزارة الصناعات الإلكترونية الصينية للمشاركة في مشروع 
الترجمة الآلية متعدد اللغات» الذي رصدت له الحكومة اليابانية خمسين 
مليون دولار أميركي عام ١11٠‏ لتطوير نظام للترجمة الآلية بين لغات 
خمس دول آسيوية هي: اليابانء والصين» وماليزياء وسنغافورةء وتايلاند. 

وفي عام 1555 شارك في مشروع بحثي للترجمة الآلية بين اللغتين 
الإنجليزية والصينية ممثلا عن جامعة تشينغ خوا الصينية بالتعاون مع شركة 
٣‏ الأميركية. كما نجح مع فريقه البحثي في بيع حقوق الملكية الفكرية 
لعدد من النتائج البحثية لشركتي آي بي إم 1811» وميكروسوفت „Microsoft‏ 

ينقسم كتاب ((علم الذخائر اللغوية)) إلى خمسة أبواب وملحق 
للاختصارات وقائمة مراجع. 
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الباب الأول: عبارة عن مقدمة تعريفية بالذخائر اللغويةء وماهية علم 
الذخائر اللغويةء وتاريخ تطور العلم وآفاقه المستقبلية» والدور الذي يلعبه 
الحاسب الآلي في علم الذخائر اللغوية» والموضوعات البحثية التي يهتم بها 
هذا العلم. 

الباب الثاني: يتحدث عن تصميم الذخائر اللغوية وتطويرهاء من حيث 
بعض مشكلات جمع المادة اللغويةء وكيفية بناء ذخيرة لغوية: وأهم 
الموضوعات التي ينبغي أخذها بعين الاعتبار حتى تكون ال ذخيرة مُمَتلة 
للواقع اللغوي بالإضافة إلى عرض لأنواع الذخائر اللغوية» وتعريف بأشهر 
الذخائر اللغوية على مستوى العالم والصين. 

البابْ الثالث: يتطرق إلى معالجة الذخائر اللغوية والتقنيات المستخدمة 
في إدارتهاء وطرق إدارة الاستعلام داخل الذخائر اللغوية؛ وتوظيف علم 
clea‏ غلم AEA‏ اللغوية :و لسهن برمدات الفيرسة المتروفة يفل 
برمجية كولوكيت Typical MSs Collocate‏ بالإضافة إلى ترميز 
لائر ية من حت فهرم و تبرض راع امير فة هة 
اللنصوص اللغوية على كل من المستويات النحوية والدلاليةء والترميز على 
sea copiers‏ 

الباب الرابع: يتحدث عن العلاقة بين علم الذخائر اللغوية وعلم اللغة» 
من حيث استقدام منهجية الذخائر اللغوية في الدراسات اللغوية على مستوى 
البحوث المتعلقة بعلم المفردات» والنحوء ANAM,‏ بالإضافة إلى علم اللغة 
التداولي وتحليل الخطاب؛ فضلاً عن تعليم اللغات وعلم المعجمية. 
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الباب الخامس: يتناول تطبيقات منهجية الذخائر اللغوية في علم اللغة 
الحاسوبي» من خلال دراسة الأبحاث المتعلقة بإزالة اللبس الدلالي» 
والدراسات المتعلقة بتمييز التعبيرات اللغوية الاسمية وما إلى ذلك. 

لم تكن تجربة نقل كتاب ((علم الذخائر اللغوية)) عن اللغة الصينية 
تجربة سهلةء لعدة أسباب أهمها عدم وجود وعاء معرفي سابق باللغة العربية 
في الترجمة والتأليف في هذا المجال» الأمر الذي جعل رحلة الترجمة بكل ما 
تحتويه من مصطلحات وما تشير إليه تلك المصطلحات من مفاهيم علمية 
أمرا شاقا ومحفوفًا بالمخاطر؛ خشية الإخفاق في التعبير عن المصطلح بلغة 
مناسبة سهلة الفهم, Susi‏ عن أن أي خلل في الصياغة من شأنه أن يؤدي 
إلى خطأ في التوجيه لا يستطيع المترجم تحمل عواقبه العلمية. لذلك أنتهز 
هذه الفرصة للتأكيد على ضرورة المراجعة ومداومة الفعل وتوظيف ما ورد 
بالكتاب من مصطلحات ومفاهيم عن طريق الممارسة واستمرار الترجمة»ء 
لدفع المصطلحات والمفاهيم الواردة بالكتاب إلى مزيد من السلاسة والتداول. 
ومن ضمن أسباب الصعوبة أيضنًا أن النقل قد تم عن اللغة الصينية وما 
a ill Ihe atti}‏ مواجهة بعض المشكلات الخاصة باللغة الصينية» التي 
ليس لها وجود في لغات أخرى وبخاصة اللغة العربيةء ما أدى إلى استغراق 
الكتاب Le‏ تمكنت من 
تدشين المضطلحات الجوهرية لهذا العلم الوليد في اللغة العربية. وقد ساعدني 
في التغلب على هذه المشكلات عدد من القراءات الإثرائية باللغتين الصينية 
والإنجليزية» فضلاً عن ممارسة الإنتاج العلمي والبحثي في بعض القضايا 
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التي يتناولها الكتاب بالتوازي مع تقدم العمل في الترجمة. فقد كان إذن 
لتخصصي في الترجمة واللغويات الحاسوبية عظيم الأثر في سبر أغوار علم 
الذخائر اللغويةء وتسهيل معالجة بعض المفاهيم المُركة والمنهجيات 
المُستَعْلَقََه وصياغة المصطلحات المعبّرَّة عنها بأكبر قدر من الوضوح؛ حتى 
يتم توسيدها في الوعاء المعرفي للغة العربية؛ إيمانا من المترجم بأهمية 
العلوم البينية وتداخل التخصصات اللغوية (كاللغويات الحاسوبية وعلم 
الذخائر اللغوية) في العمل على تكامل البحث اللغوي التطبيقي. 
وسعيًا إلى توسيع دائرة فائدة القارئ العربي من الكتاب قدمت بعسض 
الإضافات في النسخة المترجمة تتمثل فيما يلي: 
-١‏ مقدمة بقلم المترجم للتعريف بأهمية الكتاب والمؤلف. 
؟- عدد من الحواشي استعنت بها لشرح بعض المفاهيم الخاصة 
بطبيعة اللغة الصينية أو التعريف ببعض العلماء الذين لهم إسهامات 
في مجال الذخائر اللغوية أو اللغويات الحاسوبية. 
*- فهرس باللغتين الصينية والعربية يحتوي قائمة المصطلحات 
الواردة في: الكتاب الأصلي مع إضافة المعنى المقابل بالإنجليزية 
لعدد من المصطلحات الأساسية في هذا التخصص. لإفادة الباحثين 
والمترجمين العاملين في هذا المجال» ولتكون بداية لتوطين تلك 
المصطلحات في الوعاء المعرفي للغة العربية» من خلال مداومة 
العمل على تطويرها وتنميتها واستخدامها بين المتخصصين. 


4- ترجمة للمراجع الصينية التي استعان بها مؤلف الكتاب لتعريف 
القارئ بمستوى ما توصل إليه الصينيون في هذا المجال. 
5- ترجمة للأمثلة التطبيقية الصينية الموجودة في الكتاب وقدتم 
وضعها دائمًا بين علامتي تنصيصء لزيادة مفهومية النص 
المترجم. 
وفئة القراء المستهدفة من ترجمة كتاب "علم الذخائر اللغوية" هم 
العلماء والباحثون المتخصصون في مجال اللغويات الحاسوبية على وجه 
الخصوصء والعلماء والباحثون في حقل اللغويات التطبيقية بصورة CA ale‏ 
وخاصة في مجالات علم المعجمية» وعلم المصطلح., والترجمة:؛ وتعليم 
اللغات» وما إلى ذلك. كما يستهدف الكتاب المتخصصين في الدراسات 
الأدبية؛ حيث يمكنهم الاستعانة بمنهجيات هذا العلم في دراساتهم النقدية 
والأسلوبية اعتمادًا على تحليل ذخائر لغوية أدبية. ويمكن اعتبار هذا الكتاب 
مرجِعًا للباحثين المشتغلين في بحوث لغوية تطبيقية» أو بحوث أدبية تستعير 
من اللغويات أدوات التحليل والعرض؛ حيث يساعد هذا الكتاب على ترسيم 
مُخطّط علمي منضبط يمكن أن يَعْتمد عليه الباحثون في عملهم. 
وأود التأكيد على أن هذا العمل يُعَدُ بالنسبة إليّ نقطة البداية لسلسلة من 
الأعمال المترجمة التي أحلم بتوطينها في اللغة العربية عن علم اللغة 
الحاسوبي بقضاياه وتوجهاته البحثية المختلفة. إن ترجمة كتاب "علم الذخائر 
اللغوية" بالنسبة إلى هذه الأعمال هو الخطوة الأولى نحو توطين تلك العلوم 
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باللغة العربية. على أمل أن يحظى هذا الجهد بقبول حسن» وأن يُسهم في 

تعريف القارئ العربي بعلم الذخائر اللغوية وكيفية الاستفادة منه من قبل 

الباحثين في بناء ذخائر لغوية عامة وخاصة تساعد على دراسة اللغة العربية 

في الاتجاه التطبيقي والتحليق بها إلى آفاق التطبيق» حتى تخرج هذه Aali‏ 

العريقة من مئباتها البحثي والعملي الذي تسبب فيه أهلهاء وتنحصر الفجوة 
بيننا وبين من سبقوناء وحتى تعود الشمس لتشرق من الشرق. 

أ.د./ هشام موسى المالكي 

أستاذ الترجمة واللغويات الحاسوبية 

قسم اللغة الصينية 

كلية الألسن- جامعة عين شمس 


القاهرة - أبريل - ۳٠١۲م‏ 


الباب الأول 
مقدمة ومدخل إلى الموضوع 


أصبح "علم الذخائر )4,31 Qs É 4 Jail: (Corpus Linguistics)‏ 
فروع علم اللغة. وإجراء الأبحاث القائمة على الذخائر اللغوية لم يعد مقتصر'ا 
على خبراء علوم الحاسب فقطء بل أصبح لهذا Ui jie led‏ على جميع 
المجالات البحثية في علم اللغة". هذه العبارة ذكرت في مقدمة الكتاب القيّم 
الذي ail‏ توما اكرون ع 14۹6 وف لقال سرون ميقن E‏ 
على ميلاد عالم اللغة ليتش (Leech)‏ مؤسس علم الذخائر اللغوية. وقد 
تزايدت الإشارات والنصوص المعبرة عن المضمون نفسه في السنوات 
الأخيرة في المؤلفات اللغوية الشهيرة التي تتناول منهجية العمل في البحوث 
اللغوية وأساليبهاء وأصبح هذا المصطلح من المصطلحات المتعارف عليها 
لدى جميع العاملين في علوم اللغةا!!. 


0 أستاذا للغويات‎ dae VAT D ga cya (Geoffrey Leech) جيفري ليتش‎ )١( 
eY حتى‎ ١5175 الإنجليزية الحديثة بجامعة لانكاستر البريطانية في الفترة من‎ 
A .۲ ويعمل أستاذا متفرغا بقسم اللغويات واللغة الإنجليزية بالجامعة نفسها منذ‎ 
الآنء كما أنه عضو بالأكاديمية النرويجية للعلوم والآداب. (المترجم)‎ 
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الفصل الأول 
الذخائر اللغوية وعلم الذخائر اللغوية 


يقصند بالذخيرة (دمه)) ذلك الكيان J)‏ قاعدة البيانات) الذي تُخزّن 
بداخله النصوص اللغوية. وقد جرى العرف بين علماء اللغة أن مصطلح 
ذخيرة لغوية يُقصتد به ذلك العدد الهائل من الشواهد اللغوية الطبيعية الذي 
يُستخدم كأساس لإجراء البحوث اللغوية. والذخيرة اللغوية لا تقق صر فق ط 
على اللغة التحريرية؛ ولكنها تحتوي أيضنًا على عينات صوتية من اللغة 
الشفهية» وقد تقتصر الذخيرة على أحد مستويات اللغة فقط» سواء المسستوى 
الكتابي أو المستوى الشفهيء هذا بالإضافة إلى أن هذا المفهوم يُستخدم أيضنًا 
للدلالة على اللغة في حالة ثابتةء أو اللغة في حالاتها المتغيرة على حدّ سواء. 
وقبل اختراع الحاسب الآلي كان الباحثون -على وجه الخصوص مؤلفو 
المعاجم اللغوية - يمتلكون ذخائر لغوية» إلا أن نطاق تلك الذخائر كان 
محدوذًا للغاية؛ ولذلك كان من الصعب تكوين تيار علمي يمثل هذا -المصطلح 
في الأوساط اللغوية. ولكن منذ حوالي أربعين عامّاء أصبح هذا المسصطلح 
يقترن دائمًا بالمادة اللغوية الطبيعية التي تخزّن عن طريق الحاسب الآليء 
التي نخدم في الدراسات اللغوية والتطبيقات الخاصة بهندسة اللغة. ومع 
تطور الحاسب وتقنياته تطورت الذخائر اللغوية وتعددت أشكالها وتضاعف 
حجمها؛ بالإضافة إلى تنوع أغراض استخدامها وتطبيقاتها. وفي الوقت ذاته 
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ظهرت أعداد. كبيرة من البرمجيات المتخصصة التي تَستّخدم في حفظ 
نصوص الذخائر اللغوية واسترجاع المعلومات من تلك النصوص ومعالجتها. 
وتطورت الذخائر اللغوية الإلكترونية بصورة سريعة لتصبح مصدرا مهما 
من مصادر البحث اللغوي. وقد تأسست العديد من الذخائر اللغوية فائقة 
الحجم على مستوى العالم؛ منها ما هو عالمي؛ ومنها ما هو محلي على 
مستوى الجامعات ومؤلفي ودور نشر المعاجم. هذا بالإضافة إلى أن التطور 
السريع للحاسبات الشخصية وانخفاض تكلفة وسائط تخزين البيانات قد أتاح 
الفرصة أمام كل باحث لتكوين ذخائر لغوية تتلاءم مع احتياجاته وميوله البحثية. 
وعلى الرغم من أن هناك تاريخا ملموسا لعلم الذخائر اللغوية» فإنه لم 
يتم الاتفاق على تعريف محدد لهذا العلم حتى الآن. وفيما يلي نستخلص 
تعريفين لعلم الذخائر اللغوية: 
التعريف الأول: (Corpus linguistics) 4, 52ll) SLY ale‏ 344 
العلم الذي يهتم بدراسة اللغة على أساس من أمثلة لغوية واقعية تمد مسن 
واقع الحياة الطبيعية للجماعة اللغوية. (ماكنري وولسون )۱۹۹٩‏ ا. 
التعريف الثاني: علم الذخائر اللغوية هو ذلك العلم الذي ينطلق مسن 
الوصف اللغوي للنصوص اللغوية أو يتخذ من الشواهد اللغوية الواقعية داخل 
النصوص نقطة انطلاق لتحديد فرضيات البحث اللغوي. (كريستال .3!)١19١‏ 
ويمكننا أن نلاحظ من خلال التعريفين السابقين أن مصطلح علم 
الذخائر اللغوية" باعتباره مصطلحًا علميّاء يختلف اختلاقا جوهريًا عن "علم 
النحو" و"علم الدلالة" في كونه لا يهتم بالنظر “إلى جانب واحد من جوانب 
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اللغة؛ ولكنه منهجية بحث لغوية تعتمد على نصوص اللغة الطبيعية في 
دراسة الظواهر اللغوية. وفي الحقيقة أن هذا العلم يضم توجهين أساسيين: 
أولاً: تهيئة اللغة الطبيعية وترميزها لخدمة البحوث اللغوية. 
ثانيًا: إجراء الدراسات اللغوية وتطوير التطبيقات اللغوية على الذخائر 


"s ° 


بعد تهيئتها وترميزها. 


الفصل الثاني 
تاريخ تطور علم الذخائر اللغوية 


يرجع تاريخ علم الذخائر اللغوية تياعتباره أحد المنهجياث التي تترس 
اللغة الطبيعية- إلى القرن الماضيء وترأجع الوثائق""' التي ذكرت ذلك العلم 
إلى فترة تكوّن نظرية النحو التحويلي التوليدي لناعوم تشومسكيء ومنذ ذلك 
الوقت حتى الآن يمكننا تقسيم تاريخ ذلك العلم إلى Mat yo EDU‏ 
١‏ البدايات الأولى لعلم الذخائر (corpus linguistics) LAII‏ 

كان ذلك قبل النصف الأول من خمسينيات القرن العشرين؛ ويُقصد 
بذلك جميع البحوث اللغوية التي كانت تنطلق من المواد اللغوية الطبيعية في 
فترة ما قبل ظهور نظرية النحو التحويلي التوليدي لتشومسكيء ويمكن تمثيل 
التطبيقات التي نتجت في تلك المرحلة من خلال النقاط التالية: 

أ) اكتساب اللغة 

هذا الحقل من أول المجالات التي استخدمت فيه الذخائر اللغوية 
كوسيلة من وسائل البحث اللغوي. ففي سبعينيات القرن التاسع عشرء ظهر 
في أوروبا أول تيار من الدراسات يبحث في طرق اكتساب الأطفال للغة. 
وفي الوقت ذاته» كانت جميع المواد اللغوية موضع الدراسة هي تلك 
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اليوميات التي تدون حديث الوالدين للأبناء وتَظَوّر هذا الحديث مع تقدم 
الأبناء في السن. وكما هو معروف كانت تلك اليوميات هي المادة الأولية 
التي اعتُبرت أحد المصادر اللغوية التي بنى عليها العلماء فرضياتهم اللغوية 
أمثال بريار «عنروءمط !*! وستيرن ه2ع]8 ' وغيرهماء بالإضافة إلى أنها ما 
زالت i‏ أحد المصادر اللغوية التي يعتمد عليها الباحثون حتى يومنا هذا. 
ومنذ ثلاثينيات القرن العشرين» قدم علماء اللغة وعلماء النفس العديد من 
الأنماط اللغوية للأطفال في أعمار مختلفة. وقد وُْضعت تلك الأنماط اللغوية 
بصورة أساسية اعتمادًا على كميات هائلة من المواد اللغوية التي تَسَجّل اللغة 


الطبيعية للأطفال. 
ب) علم اللهجات 


ارتبط علم اللهجات منذ نشأته ارتباطًا وثيقا بالذخائر اللغويةء وقد ولد 
هذا العلم من رحم علم اللغة التاريخي المقارن الذي نشأ في القرن التاسع 
عشرء وكانت الأسباب الأولى لنشأة هذا العلم تنحصر في استخدام الوسائل 
المباشرة لتسجيل الاختلافات الصوتية داخل اللغة لعرض خريطة اللهجات 
في لغة ما. "وكان الباحثون في البداية يحملون في أيديهم كراسات لتدوين 
ملاحظاتهم» ثم تلى ذلك استخدام أجهزة التسجيل الصوتيء وكانوا يُتوتون أو 
pera jing be JS oy slang‏ من مواد لغوية find‏ عن اختلاف اللهجات. وهذه 
المادة ما زالت مرجعًا علميًا لبعض الباحثين غير المتفرغين» ولها قيمة 
واضحة في مجال دراسة توزيع المفردات داخل اللهجات". 
-"(francis,1980)‏ 
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ج) تعليم اللغات 

fries وفرايز‎ Traver i 5 Bonger ae pied 
هم أول من استخدم الذخائر اللغوية في دراسة أساليب تعليم اللغفة‎ )١141( 
من وجود‎ )۱۹۹۲( Kennedy وتعلمها. وهذا یتطابق مع ما ذکره. کینیدي‎ 
ارتباط وثيق بين الذخائر اللغوية وتعليم اللغات الأجنبية في الخمسين سنة‎ 
الأولى من القرن العشرين. وقال: إن المصدر الرئيس لقوائم المفزدات‎ 
المستخدمة في تعليم اللغات الأجنبية كان تلك الإحصاءات التي تمت على‎ 
الذخائر اللغوية في اللغات موضع الدراسة. وكان لتلك القوائم فائدة كبرى في‎ 
توجيه عملية تعليم اللغات الأجنبية.‎ 

د) النحو والدلالة 

قام بعض علماء اللغة بتوصيف اللغة اعتمادًا على الذخائر اللغوية مثل 
alle‏ اللغة فرايز (gill (140%) (Fries)‏ قدم وصفا لقواعد اللغة الإنجليزية 
قياسا على دراسة ذخيرة لغوية 2!. وهذه المحاولة تسبق ما قام به عالم اللغة 
كويرك (!:أد0) وغيره في أواخر الثمانينيات لتأليف taal‏ اللغة 
الإنجليزية" بحوالي ثلاثين عاما. 

ه) دراسة النظام الصوتي للغة 

يعود استخدام ذخائر اللغات الطبيعية في دراسة النظام الصوتي للغة 
إلى علماء اللغة البنيويين أمثال oF.Boas cig‏ وإدوارد سابير 
أم1.52 وغيرهماء فقد اهتموا بالعمل في البيئة الطبيعية للغة وأكدوا على 
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ضرورة أن ينطلق البحث اللغوي من اللغة الطبيعية ومن النظرة الموضوعية 
لها. وهذه الآراء كانت حجر الأساس الذي أرسى دعائم علم الذخائر اللغوية. 
ومع حلول الفترة الأولى من خمسينيات القرن العشرين أصبح المناخ العلمي 
مُهِينَا للاهتمام بدور الذخائر اللغوية في دراسة اللغة. الأمر الذي شكل تيارًا 
قويًا في الوقت ذاته وخاصة في أميركاء جلى يد زيليك ماریس (Harris)‏ 
وغيره من علماء اللغة البنيويين خلفاء ليونارد بلومفيلد؛ حيث اعتبروا أن 
الذخائر اللغوية هي المادة الأساسية التي يجب أن تتطلق منها دراسات اللغةء 
وكانت رؤيتهم تنصب على أن الشواهد اللغوية التي تقوم على الحدث يجب ٠‏ 
أن تأتي في المرتبة الثانية وأنها لا يُعتمد عليها في بناء النظام اللغوي ويجب 
J c‏ بقواعد تنطلق أسامًا من الواقع اللغوي. 
" مرحلة النحو التحويلي التوليدي لتشومسكي 

بعد ظهور النظرية النحوية لتشومسكي ‏ عام ۱۹١۷‏ وما تلاها مسن 
سلسلة أبحاث لغوية» حدث تغيز جذري في تاريخ تطور علم الذخائر اللغوية 
الذي تحدثنا عنه سالفا. وتحول التيار الأساسي لمنهجيات البحث اللغوي تبعًا 
empiricism) 422 pail We jill oya lly‏ إلى النزعة العقلية 
«("(Rationalism)‏ في دراسة اللغة. ففي تلك الفترة» احتلت نظرية ديكارت 


)١(‏ النزعة التجريبية: مذهب من يقيم المعرفة على ما تدركه الحواس وحدهاء وينكر 
وجود مبادئ فطرية في النفس وقوانين صادرة عن العقل. (المترجم) 

)١(‏ النزعة العقلية: مذهب في الفلسفة يرى أن كل شيء في الوجود مرده إلى العقلء 
ويتخذ من العقل والاستنباط معيار! للحقيقة بدلا من المعايير الحسية. وقد أخذ بهذا 
المذهب ديكارت وهيجل وليبنز في فلسفتهم. (المترجم) 
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العقلية مكان الصدارة» وتراجعت النزعة التجريبية لتصبح كما لو أن ليس لها 
أساس تستند إليه. وبطبيعة الأحوال أنكرت جميع أنواع الذخائر اللغوية التي ' 
تكونت على أساس من النزعة التجريبية. ويعتقد أصحاب المذهب العقلي أن 
جزءًا كبيرًا من المعلومات اللغوية لدى الإنسان توقيفية موروثة. أما أصحاب 
المذهب التجريبي فيقفون على النقيض من هذا الرأي؛ حيث يعتقدون أن اللغة 
اصطلاحية؛ وأن معلومات الإنسان تدخل إلى عقله أولاً عن طريق الحواس» 
ثم تتكون بعد ذلك المعلومات اللغوية عن طريق بعض التصورات البسيطة 
ؤبعض المعالجات التي تتم على تلك التصورات الذهنيةء وأن الإنسان عندما 
يولد لا يكون متمتعًا بالمبادئ اللغوية وأساليب معالجة اللغة. ونظرا إلى 
استقبال نظرية تشومسكي استقبالا حسنا في الأوساط اللغوية» فقد هيمنت 
النظرية العقلية على الدراسات اللغوية على مدى ستينيات وسبعينيات القرن 
الماضي ولمدة ما يقرب من عشرين عاما. | 
وقد تركزت الانتقادات التي وجهها تشومسكي وزملاؤه من علماء 
النحو التحويلي التوليدي للمحاولات الأولى للبحث اللغوي باستخدام الذخائر 
اللغوية. على النقاط التالية: 
أ- وجود أخطاء في أساليب البحث اللغوي المبني على الذخائر 
اللغوية. فقد فرق تشومسكي 3 (language‏ 
competence)‏ © 9 الأداء اللغفو ¢ ‘(language performance)‏ 
nd ge‏ الهدف الأساسي من البحث اللغوي يقوم بشكل رئيس 
على القدرة على وضع أنماط للمعرفة اللغوية تَحَبْر عن الواقع 
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الداخلي لنفس المتحدث» بمعنى تقذيم أنماط القدرة اللغوية» لأننا لا 
نستطيع أن نقدم وصفا وشرحا للمعلومات اللغوية لدى المتحدث إلا 
عن طريق القدرة اللغوية. أما الاستخدام اللغوي فهو الدليل 

. الظاهري على القدرة اللغويةء وهو دائمًا ما يتخطى حدود تأثير 
التحولات التي تحدث على العناصر الأساسية المُكوّنة للغة. ومن 
هنا فلا يمكن أن يكون الاستخدام اللغوي معبرًا بصورة كاملة عن 
القدرة اللغوية. ويعتقد تشومسكي أيضًا أن جوهر المعلومات اللغوية 
ما هو إلا مجموع العناصر المُكونة للغة؛ وأن أنماط التجريب التي 
تمخضت عن دراسة الذخائر اللغوية لا تقدم إلا تفسيرًا جزئيًا للقدرة 
اللغوية. ومن هناء نجد أن هذا الأسلوب في دراسة اللغة لا يتمتع 
بالقوة الكافية. 

ب- عدم كفاية المادة اللغوية؛ حيث اكتشف تشومسكي لأول مرة في 
كتاب (النظرية النحوية) أن قواعد تركيب التعبييرات في اللغة 
الإتجليزية تتسم بالاضطرادء وهذا الاضطراد يُعَبّر عن أن الجمل 
في اللغات الطبيعية ليس لها حدود؛ وبمعنى آخر أن المواد اللغوية 
ليس لها نهاية ولن تصل إلى حد الاكتمال أبذا. وقد يرت هذه 
الرؤية لعلماء اللغة التحويليين اتجاه البحث اللغوي الذي ساد طوال 
خمسينيات القرن الماضي عند علماء اللغة البنيويين. وفيما يقرب 
من عشرين سنة بعد ذلك» يمكننا القول: إن جميع علماء اللغة قد 
اتبعوا ذلك النهج في دراسة اللغة. وساد أسلوب استخدام الذخائر 
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اللغوية وفقا للرؤية الجديدة في بحث اللغة بصورة هائلة. ولكن 
على الرغم من ذلك فإن البحث في علم الذخائر اللغوية لم يصل 
إلى نهايته» بل ظهر العديد من العلماء الذين اتسموا بشجاعة علمية 
غير عادية وتحملوا أعباء لا حصر لها في سبيل تطوير علم 
الذخائر اللغوية. ففي عام ۹١۹٠ء‏ قام عالم اللغة كويرك )Qui٣k(‏ 
ببناء ذخيرة لغوية بعنوان: (دراسة مسحيّة لطرق استخدام اللغة 
الإنجليزية). وفي الوقت ذاته» بدأ کل من فرانسیز (Francis)‏ 
age g pia gå dali (Kucera) | mass s‏ الضخم لبناء الذخيرة 
اللغوية الشهيرة التي غرفت باسم براون 82082 التي استغرق 
بناؤها ما يقرب من عشرين عامًا حتى اكتملت تماماء وبالإضافة 
إلى ذلك بدأ عالم اللغة جان سقارتفيك (2:4:11؟5 3988) في عام 
٠٥‏ بناء ذخيرة لندن النصية المعروفة باسم ذخيرة لندن- 
لوند )London-Lund Corpus)‏ على أساس من الذخيرتين 
اللغويتين السابقتين» بالإضافة إلى أنه توصل أخير! إلى بناء ذخيرة 
blis SEU aul Ci LS iH‏ على تلك الجهود رأى ليتش 
ala ici (Leech:1991)‏ دراسة اللغة الشفهية الإنجليزية لا 
يمكن منافستها حتى YI‏ وبالإضافة إلى ذلك نجد أن التعاون الذي 
تم بين خبراء الحاسب وعالمي اللغة فرانسيز وكوسيرا في جامعة 
براون قد تمخض عنه بناء أول ذخيرة لغوية يقرأها الحاسب في 
عام .١951١‏ وقد استخدمت تلك الذخيرة اللغوية عينات من اللغة 
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الإنجليزية تحت موضوعات مختلفة» ووصل نطاق تغطيتها إلى 
حوالي مليونٍ كلمة بغرض دراسة النموذج الأميركي من اللغة 
sey‏ هذه الذخيرة اللغوية بمثابة حجر الأساس لعلم 
النخائر اللغوية الذي تأسس في ثمائينيات القرن الماضي. 
۳ فترة ازدهار علم الذخائر اللغوية وانطلاقه 
منذ تمانينيات القرن الماضي وعلى مدى ما يقرب من عشرين عامًاء 
تطور علم الذخائر اللغوية بصورة كبيرة ونما نموا متسارعاء وقد تمثل ذلك 
في النواحي التالية: 
أ) توالي ظهور الجيل الثاني من الذخائر اللغوية 
فمنذ ثمانينيات القرن الماضي» ظهرت مجموعة كبيرة من الذخائر 
اللغوية أشهرها الذخيرة المعروفة باسم كوبويلد 00114©: وعلى الرغم من 
كون تلك الذخائر اللغوية مختلفة فيما بينها من حيث الحجم وأسلوب التصميم 
والهدف» فإن غالبيتها كان يعتمد على تقنية التمييز .الكهروضوئي للحروف 
والمعروفة. بتقنية Gi cag CHKDEM‏ تمكن العلماء من تحويل النصوص 
آليّا إلى الشكل الرقمي وتحريرها من الأسلوب اليدوي الشاق الذي يعتمد 
كتابة النصوص باستخدام لوحة المفاتيح. إن الذخائر اللغوية التي ظهرت في 
تلك الفترة لم تتضاعف من حيث الحجم فحسب» بل زادت سرعة بنائها؛ ومن 
É‏ اصطلح على تسمية تلك الذخائر بالجيل الثاني من الذخائر اللغوية. وتشير 


(1) Korowai Data Entry Machine. 
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دراسة إحصائية غير كاملة للعالم اللغوي الأميركي إدواردز cs (Edwards)‏ 
جامعة كاليفورنيا - بركلي تشر ها عام ١531‏ أن عدد الذخائر اللغوية التي 
طرحت للاستخدام في ثمائد نينيات القرن الماضي قد زاد عن خمسين ذخيرة؛ 
ويمكن تقسيمها حسب اللغة كما يلي: 
Dy‏ سه 24 للفرنسية —< 4 الإرطالبة 2 لدثماركية-->» 2 
الألماترة حه 4 ٠.‏ الإضيائية» 2 الفنلنبية > 2 لسويدية سه7 
وبالإضافة إلى ذلك نجد أن لغات مثل البرتغالية واليوغوسلافية وغير 
ذلك من اللغات قد تتابعت في إنشاء ذخائر لغوية. ومن بين أعداد الذخائر 
سالفة الذكر نعرض بالتفصيل بعضا منها اتسم بالتميز وكبّر الحجمء كما يلي: 
)١(‏ ذخيرة لانكاستر- أوسلو - برجن 
(Lancaster ¬ Oslo ¬ Bergen Corpus)‏ 
تسمى هذه الذخيرة اختصارًا باسم ذخيرة لوب 1108ء وقد أسسها فريق 
عمل تحت قيادة العالم اللغوي ليتش 1٠١1‏ بجامعة. لانكستر الإنجليزية 
الشهيرة بغرض دراسة اللغة الإنجليزية. . وقد تم تصميم هذه الذخيرة باستخدام 
أسلوب مشابه لأسلوب بناء ذخيرة براون من حيث تقسيم المادة؛ وأسلوب 
انتقاء العينات. وقد تم الانتهاء من العمل في هذه الذخيرة عام 1987. 
وتتكون هذه الذخيرة من حوالي خمسمائة عينة لغوية»؛ يصل حجم كل عينة 
إلى ألفي كلمة. وبذلك يصل إجمالي حجم النصوص التي تحتويها تلك 
الذدخيرة ؟ إلى :مليون كلمةه ونظرةة إلى .ذلك المنيزات فقا ما يتفن للا 
ذخيرتي لوب وبراون النصيتيْن بمثابة أختين من أصل واحد يمكن الاعتماد 
عليهما في مقارنة النموذج البريطاني والنموذج الأميركي من اللغة الإنجليزية. 
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(؟) ذخيرة النصوص الفرنسية المعروفة باسم TLF‏ 
(Trésor de la Langue Francaise)‏ 
أُنْشئّت هذه الذخيرة بالتعاون بين كل من مركز البحوث العلمية التابع 
للحكومة الفرنسية وجامعة شيكاغو الأميركيةء وقد غطت المادة اللغوية في 
تلك الذخيرة اللغوية الفترة من القرن السابع الميلادي حتى القرن العشرين؛ 
حيث ضمت ما يقرب من ألفي عينة نصية تغطي جميع الأساليب التحريرية 
في اللغة الفرنسية. ويصل عدد الكلمات في تلك الذخيرة إلى حوالي مائة 
مليون وخمسمائة ألف كلمة. وقد حُفظت تلك الذخيرة النصية في أسطوانات 
ليزر بالإضافة إلى استخدام نظام التشغيل يونكس »اص0 للتعامل معها وتصفحها. 


(۳) ذخيرة هيلسنكي النصية للمعلومات التاريخية 
(The Helsinki Corpus of Historical English)‏ 
تأسست تلك الذخيرة في جامعة هيلسنكي من خلال مجموعة من علماء 
اللغة بقيادة العالم اللغوي روسيني (Roseanne)‏ وتشتمل تلك الذخيرة النصية 
على جميع النصوص التاريخية باللغة الإنجليزية في الفترة من عام ٠865م‏ 
حتى عام ٠‏ م. وقد قسمت المادة اللغوية بهذه الذخيرة إلى شرائح زمنية 
مدى كل منها مائة عام..ويصل حجم تلك الذخيرة إلى ست عشرة مليون 
كلمة. وتغتبر أول ذخيرة نصية تاريخية باللغة الإنجليزيةء ولهذه الذخيرة 
اللغوية قيمة علمية كبيرة من حيث كونها موجَّهة لدراسة مدى التغير في 
اللغة الإنجليزية من خلال وجهة نظر علم اللغة الاجتماعي وعلم اللهجات 

والاستخدام اللغوي. 


38 


1017 الذخيرة الدولية للنصوص الإنجليزية‎ )4( 
(The International Corpus Of English) 

تولى إنشاء هذه الذخيرة قسم اللغة الإنجليزية بجامعة لندن في عام 
۸۸ وتهدف إلى تقديم معلومات للأبحاث المقارنة عن معدل التغير 
اللغوي في الدول الناطقة بالإنجليزية على مستوى العالم» وقد اتخذت عيناتها 
اللغوية من جميع الدول الناطقة بالإنجليزيةء كما استخدمت برمجيات موحدة 
للتصنيف والتكويد. وكانت حدود المادة اللغوية من كل دولة حوالي مليون 
كلمة مقسمة بالتساوي بين المستويين التحريري والشفهي. واستغرق جمع 
محتويات تلك الذخيرة النصية ثلاث سنوات من ١55٠‏ إلى 1559. 
بالإضافة إلى أن نطاق المادة اللغوية كان يستهدف الأشخاص البالغين الذين 
يتجاوز عمرهم ١8‏ عاما وتربوا على اللغة الإنجليزية منذ صغرهم. 

والجدير بالذكر أن مجموعات العمل المُكلفة بإنشاء ذخائر لغوية 
بالصين كانت تتزايد بصورة متوالية؛ كما أن الأبحاث اللغوية والمسح اللغوي 
القائم على ذخائر نصية كان يتزايد باضطرادء مثل الدراسات الإحصائية التي 
تمت على ذخائر لغوية كبيرة الحجم للتعرف على معدل تكرار الرموز 
والكلمات في اللغة الصينية. وقد خرج عن تلك الدراسات نتائج علمية 
ملمؤسنة» من أهمها (قائنة لأرمون الأكثل انستخدامًا فئ اللفة النصيتية 
الحديثة)ء و(معجم معدل تكرار الكلمات في اللغة الصينية الحديثة). وسوف 
نتحدث بالتفصيل عن Ce‏ 
بصورة أكثر تفصيلاً في الباب الأخير من هذا الكتاب. 
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ب- زيادة الأبحاث العلمية القائمة على ذخائر لغوية 
لقد أدى إنشاء الذخائر اللغوية إلى دفع الأبحاث اللغوية القائمة على 
تلك الذخائرء ويمكننا بوضوح أن ذ ظط ذلك من خلال الإحصاءات المبيّنة في 
الجدول التالي: 
جدول :1-١‏ إحصاء بالأبحاث القائمة على ذخائر 
لغوية في الفترة من ١959‏ إلى ١19١‏ 


(Johansson:1991) ¢y guild ga 
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وتشير الحقائق إلى أن الذخائر اللغوية الإلكترونية قد قدمت مصادر 
رائعة ومّعّت مجالات البحث اللغوي. وذلك نظرًا إلى أن المادة اللغوية التي 
تقدمها تتصف بالواقعية بالإضافة إلى وضوح التكوين الهيكلي لها؛ ومن ثم 
أصبحت تلك الذخائر خير مُعين على تقديم وصف لغوي متعدد المستويات؛ 
بالإضافة إلى أنها ساهمت في تطوير الأبحاث المقارنة بين الأساليب اللغوية 
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المختلفة» والأكثر من ذلك أنها أسهمت أيضًا في عمل الدراسات الإحصائية 
الكمّية عن اللغة. 

وفي تلك الفترةء توصلت العديد من الأبحاث اللغوية إلى نتائج علمية 
مهمةء منها ما تمكن من تعميق نتائج الدراسات الموجودة بالفعل» ومنها أيضًا 
ما وسّع مجالات البحث اللغوي المتعارف عليها. مثل دراسات تحو 
الاحتمالات التي قدمها هاليداي (832111423) عام 1191531١‏ وسقارتفيك 
(Svartvik)‏ عام ۱۹۹۲ء وغيرهما. وكذلك الدراسات المتعلقة بخصائص 
اللغة الإنجليزية التي قدمها دوتي اه0 عام ١۱۹۹ء‏ بالإضافة إلى الدراسات 
الإحصائية التي قدمها ۱۹۸١ ale opty (Sinclair) Kipu‏ عن تراكيب 
اللغة الإنجليزية. 

أما عن أسباب ازدهار علم الذخائر اللغوية في اللغة الإنجليزية مع 
بداية ثمانينيات القرن العشرين فهناك العديد من الآراء نستطيع أن نوجزها 
في النقطتين التاليتين: 

)١(‏ إن تطور علوم الحاسب وانتشار التقنيات والتطبيقات الإلكترونية 
قد أرسى دعائم وأُسُمًا قوية لتطور علم الذخائر اللغوية ونموه. فمنذ 
ثمانينيات القرن الماضيء دخلت الذخائر اللغوية دورة ممتازة من 
أطوار التطور؛ فقد ساهم النمو الهائل في سرعة الحاسب وقدرته 
على تخزين المعلومات في الإسراع ببناء الذخائر اللغوية: 
بالإضافة إلى زيادة القدرة على معالجتهاء وتعدد مستويات 
المعالجة. ومن جهة أخرى» نجد أن القدر الهائل من البيانات التي 
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تم ترميزها ومعالجتها قد دعم أبحاث الذخائر اللغوية وطوّرها 
وعظم من فرص الاستفادة منها. وفي تلك الفترةء ظهرت أيضنًا 
وسائل بحثية متطورة ولغات برمجة ساهمت في ابتكار برمجيات 
حديثة حولت مجرى الدراسات الإحصائية ومعالجة اللغفة من 
الأسلوب اليدوي إلى أسلوب مُمَيْكن أو نصف مُمَيْكن. ومن هنا يبدو 
لنا جليًا الدور المهم للحاسب في ذلك التطور والنمو. 

)١(‏ ثبت أن بعض النقد الذي وجهه علماء مدرسة النحو التحويلي 
التوليدي لعلم الذخائر اللغوية كان خاطئاء مثل الرأي الذي يتهم 
تقنية الحاسب أنها تقنية خادعةء بالإضافة إلى أن عددًا آخر من تلك 
الآراء النقدية كان سطحيًاء على سبيل المثال ذلك الرأي الداعي إلى 
الإنكار الكلي لقيمة الذخائر اللغوية؛ وبعضه كان صحيحا مثشل 
الرأي القائل: إن عدد الجمل التي تتكون في إطار اللغة لا متتاهي. 
أما بالنسبة إلى الرأي الداعي لاتخاذ المذهب العقلي في دراسة 
اللغة» فقد yan‏ القصور بعد أن اتبعه العديد مسن 
العلماء وطبقوه وأعملوا فيه فكرهم؛ وتَمَثْل ذلك القصور في العجز 
عن التحقق من الفرضيات اللغوية العقلية التي يضعها العلماء 
وإثباتها وغير ذلك. ولذلك فقد عبر علم الذخائر اللغوية منذ نشأته 
في ثمانينيات القرن العشرين بصورة واسعة عن أن مجال البحث 
في علم اللغة متسع وشاسع. ويعني ذلك استعادة التنوازن بين 
المعلومات الطبيعية والمعلومات التوقيفية في الدراسات اللغوية. 
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فلماذا لا يتم الجمع والتكامل بين العنصرين في البحث اللغوي حتى 
eV at Ba 11 el i wa dA‏ 
ذلك التوازن النافع دعا العديد من علماء اللغة إلى ما يلي: 
المادة اللغوية تلعب دور محوريًا في النظريات اللغوية» وهناك العديد 
من المسارات التي يمكن اتباعها لتطوير تلك المادة... ولا يمكن القول بوجود 
طريقة واحدة". هاليداي (11211102:1991). 


"من وجهة النظر العلمية» يمكن القول: إن أسلوب الذخائر اللغوية هو 
الأسلوب الأقوى في دراسة اللغة» نظر! إلى أن النتائج التي يتم التوصل إليها 
يمكن قياسها والتحقق منها". ليتش (Leech:1993)‏ 

حتی إننا ia Ule ap‏ فيلمور (Fillmore)‏ والذي وجه انتقادات 
كبيرة إلى علم الذخائر اللغويةء يكتب ما يحمل معنى الاعتراف بفضل 
الذخائر اللغوية على العلوم اللغوية: "علني أعتقد عدم وجود الذخيرة النصية 
التي تقدم معلومات كاملة عن قواعد اللغة الإنجليزية ومفردات... ولكن في 
الحقيقة أنه في كل مرة أطّلع على نتائج معالجة لذخيرة نصية مهما كان 
حجمها أجد أنها قدمت ما لا يمكن أن تقدمه أية طريقة أخرى. وخلاصة 
قولي في هذا الأمر هو أن كلا المذهبين يحتاج كل منهما إلى الآخر". فيلمور 
.(Fillmore:1992)‏ 
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الفصل الثالتٌ 
توجهات التطوير وآفاقه في علم الذخائر اللغوية 


تحدث العديد من العلماء المتخصصين في علم الذخائر اللغوية في 
السنوات الأخيرة عن آفاق التطور في ذلك العلم بصورة مستفيضة؛ مثل 
سثارت فيك الذي تنبأ قائلاً: 'سوف يصاحب ذلك ازدياد في حجم الذخائر 
اللغوية وتخسن في جودتهاء وسوف يرتفع معدل اس تخدامها" 
.(Svartvik:1992)‏ 

أما ماكنري» فعلى العكس من ذلك يرى أن تطور علم الذخائر اللغوية 
سوف يتأثر تطوره بأربعة عوامل هي: نطاق الذخائر اللغوية وأنواعها ومدى 
اهتمام الدول بهاء ومعدل تطور الحاسبات li .(McEnery:1996) i1‏ 
بالنسبة إلى الوضع الراهن للأبحاث اللغوية القائمة على الذخائر اللغوية» فقد 
وجدنا أن الآراء حول توجهات التطور في ذلك me‏ سوف تتمثل في 
النواحي التالية: 


١‏ - تطور الاعتماد على الذخائر اللغوية 


الذخائر اللغوية؛ نظر! إلى زيادة الوعي بقيمة المصادر اللغوية القوميةء 
وظهر ذلك السعي بصورة أكبر بين دول أوروبا انطلاقا من رغبة الحكومات 
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والهيئات العلمية بتلك الدول في الحفاظ على لغاتها القوميةء مثل جامعة 
أكسفورد الإنجليزية التي أصدرت الذخيرة اللغوية القومية بالتعاون مع جامعة 
لانكستر ومؤسسة رومانس الإنجليزية للطبع والنشر والمكتبة الملكية 
الإنجليزية وغير ذلك من الهيئات»ء ومثل هيئة الثقافة والعلوم والتربية اليابانية 
التي كونت مجموعة عمل من ثلاثمائة خبير عام ١949‏ قضوا خمسة أعوام 
في بناء الذخيرة اللغوية للغة اليابانية؛ وقد سُجّلت هذه الذخيرة على عدد VY‏ 
أسطوانة ليزرء من بينها عدد ٩‏ أسطوانات لغوية وعدد ” أسطوانات 
للمعلومات. وسوف يستمر البحث في بناء مثل هذا النوع من الذخائر اللغوية. 
ويأتي ترميز الذخائر اللغوية في المرحلة التالية بعد إنشائها. وهناك من يعتقد 
أن السنوات المقبلة سوف تستفر عن ظهور ذخائر لغوية صغيرة الحجم. 
لأغراض محددة: مثل الذخيرة اللغوية التي أنشأها شورت لدراسة أساليب 
التعبير عن اللغة والفكر .)810١٤:1996(‏ وبالإضافة إلى ذلك فإن الذخائر 
اللغوية المبنية على اللغة الشفهية ينبغي أن تتطور بصورة أسرع حتى يمكن 
التغلب على حالة عدم التوافق بين الذخائر اللغوية التحريرية والذخائر 
الشفهيةء ومن أجل دفع الدراسات المتعلقة باللغة الشفهية. وقد توقع ولسون 
أنه في المستقبل القريب سوف نجد نذخائر نصية متعددة الوسائط 
-(Wilson:1996)‏ 
۲ تطور أساليب ترميز المواد اللغوية 

يُقصد بترميز الذخائر اللغوية وضع أساس لإجراء تحليل متعدد الأبعاد 
والمستويات» بالإضافة إلى أن المستفيد النهائي من ذلك الترميز لا يكون 
بالضرورة هو الشخص الذي ld‏ بعملية الترميز في البداية؛ ومن ثم نستطيع 
القول: إن الاستخدام الأمثل للذخائر اللغوية يعتمد بدرجة كبيرة على 
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مستويات الترميز وجودته داخل تلك الذخائر. ولذلك فإن القوة المُحَركة 
لتطور ترميز الذخائر اللغوية يجب أن تتضمن الشروط التالية: 
)١(‏ السعي قدر الإمكان إلى تدوين وتوثيق حدود الترميز وأنظمته التي 
تظهر في تحليل اللغة؛ على سبيل المثال ما قام بهد كل من 
os (Sampson:1987) (5.1L y «(Johansson:1982) (sla sa‏ 
وضع معايير قياسية لأنظمة التحليل اللغوي» وتحوي اللغة الصينية 
نظامًا لترميز أنواع الكلمات وتقسيمها داخل النصوص الصينية("). 
(۲) ضرورة التوافق بين أنظمة التحليل المختلفة: بمعنى محاولة 
استخدام علامات معروفة لدى الجميع؛ وتقديم المعلومات اللازمة 
للتحويل من نظام ترميز إلى نظام آخر. 
(؟) لا يوجد توازن بين مستويات تطور أنظمة الترميز على مستويات 
اللغة المختلفة. فالمستويات الأسرع تطورًا! هي عمليات الترميز 
على مستوى المفردات ومستوى النحو ومستوى الصوتيات 
ومخارج الأصوات وغير ذلك. وينبغي الاهتمام بصورة أكبر من 
الآن فصاعذا بأنظمة الترميز على المستويين الدلالي والوظيفي. 
*- تطور أدوات معالجة المادة اللغوية 
يعتمد تحليل المادة اللغوية على بنية الحاسب بصورة أساسية؛ ويُقصد 
ببنية الحاسب تلك الأدوات والبرمجيات التي تقوم بالبحث ومعالجة المادة 
)1( نظر! إلى طبيعة اللغة الصينية التي تتكون كلماتها من رموز وليس من حروف 
كاللغات الأبجدية يحتاج الحاسب دائمًا إلي وسائل برمجية لتمييز حدود الكلمات 
وفصلها عن بعضها في النصوص المكتوبة باللغة الصينية. (المترجم) 
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اللغوية وتطوير استخدام أساليب علم الإحصاء في بناء أدوات فعالة لعمل 
المعالجة الآلية للغة» من أجل زيادة فاعلية الباحثين وإنتاجيتهم في مجال 
البحث اللغوي. وعلى الرغم من أن برمجيات المعالجة المتاحة حاليًا قليلة 
العددء فإن معظمها تمت صياغته لمعالجة ذخائر لغوية محددة ونطاق 
استغلالها محدود للغاية ولا يمكن تعميم استخدامها. 


48 


الفصل الرابع 
دور الحاسب في علم الذخائر اللغوية 


إذا تم التحليل اللغوي على نصوص كبيرة الحجم بصورة يدوية فمن 
gual‏ حدوث أخطاءء ومن الصعب الانتهاء من عملية التحليل» بالإضافة إلى 
زيادة إمكانية التكرار وغير ذلك من الصعوبات. وعلى الرغم من أن هذه 
الطريقة في البحث اللغوي قد قدمت إسهامات عظيمة للدرس اللغوي على 
مدى عدة قرون مضت وخاصة في مجال تأليف المعاجم» فإن ظهور الحاسب 
الآلي مع منتصف القرن العشرين قد أدى إلى حدوث تَغيْر جذري في مجال 
الدراسات اللغوية القائمة على النصوص اللغوية. ودفعتنا ثورة المعلومات إلى 
تغيير أساليب العمل القائمة على المواد اللغوية بصورة جذرية. ولم تعد هناك 
حاجة إلى استخدام البطاقات في جمع المواد اللغوية وتصنيفها؛ حيث أصبح 
مصممو المعاجم وعلماء اللغة يلجئون إلى استخدام الحاسب في تخزين 
كميات هائلة من النصوصء ويمكنهم أيضنًا البحث عن المفردات أو العبارات 
أو الجمل وإظهارها على شاشة الحاسب بسرعة دون أدنى خطأ. والأكثر من 
ذلك أنه يمكن إعادة التصنيف والترتيب بناءً على أكثر من أسلوب مثل 
تصنيف الكلمات طبقا لأساليب الاقتران فيما بينها أو الطبيعة النحوية لكل 
منها. ولذلك أصبح هناك ارتباط وثيق بين الحاسب وعلم الذخائر اللغوية. 
والحقيقة التق لا موان فيا هى أن التتكدام انانب بالل ف جل ينت 
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اللغوي القائم على الذخائر اللغوية يتسم بالسرعة والدقة والقدرة على معالجة 
نصوص ذات أحجام هائلة. إن استخدام برمجيات الحاسب لم تقلل فقط من 
العبء اليدوي الذي كان يبذله علماء اللغة في تأليف المعاجم ومعالجة 
الكميات الكبيرة من المواد اللغوية؛ ولكن تلك البرمجيات قللت أيضًا من 
العوامل البشرية التي تؤدي إلى الخطأ في أثناء العمل. وبالإضافة إلى 
إمكانات الحاسب التي سبق الإشارة إليها من حيث القدرة على تصنيف المواد 
اللغوية وإحصائها وترتيبهاء يستطيع الحاسب أيضنًا أن يقدم إحصاءات سليمة 
عن معدل تكرار تلك المواد داخل النصوصء بالإضافة إلى أن تلك 
الإحصاءات الرقمية تمكننا من تكوين معلومات قياسية عن اللغة ثم تطبيقها 
واستخدامها في عمل برمجيات كتابة الرمؤز الصينية باستخدام الحاسب!" أو. 
تلك التي استخدمت في تمييز الأصوات اللغوية أو فهرسة النصوصء وغير 
ذلك من البرامج التطبيقية التي اعتمدت على المعلومات اللغوية كأساس لها. 
كما يُسْتَخْدم الحاسب الآلي في تعظيم قدرات علماء اللغة في البحث 
اللغوي» وبذلك يتمكن هؤلاء العلماء من تتويع إمكانات استخدام اللغفة 
وتدعيمها في عمل تطبيقات لغوية متقدمة. إن الدراسات الكمية المعتمدة على 
الذخائر اللغوية في حقل اللسانيات تساهم في زيادة الوصف العلمي للظواهر 





)١(‏ اعتماذا على المعلومات الإحصائية التي تمت على ذخائر لغوية للتعرف على معدلات تواتر سلاسسل 
الرموز والكلمات داخل النصوص الصينية تمكن العلماء الصينينون من عمل برمجيات لكتابة اللغفة 
الصيئية على الحاسب تقوم بإدخال جمل كاملة إلى الحاسب دفعة واحدة عن طريق كتابة الأحرف 
الأولى لنطق الكلمات داخل تلك الجمل» وبذلك احتلت اللغة الصينية مركز الصدارة بين لغات العالم من 
حيث كونها أسرع لغة تكتب على الحاسب. (المترجم) 
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اللغوية وتعميقهء بالإضافة إلى زيادة الارتباط بين ذلك الوصف وعمل 

تطبيقات اللغوية المختلفة في جميع المجالات. ومن بين تلك التطبيقات 
اللغوية الترجمة الآلية» والتحويل بين الأشكال النصية المختلفة (مثل تحويل 
النصوص المكتوبة إلى مكافئها الصوتي وهي تلك التقنية المعروفة اختصارًا 
«(Text To Sound) TTS aul‏ وتحليل المحتوى» وتعليم اللغات وغير ذلك 
من المجالات التي تَعتبّر المستفيد الأول من تطبيقات التحليل الكمي لل ذخائر 
النصية. 


إن تحقق الحلم بمعالجة النصوص اللغوية باستخدام الحاسب إنما يرجع 
إلى سبعينيات القرن العشرينء وقد نشر العالم جوف ددانكوتي في مجلة 
"الدر اسات الحاسوبية للأدب واللغة" (Literary and Linguistic‏ 
Computing)‏ مقالاً يتوقع فيه أوان عصر معالجة اللغات باستخدام الحاسب 
بدلا من الممارسة اليدوية للإنسان. وقد قضى هذا العالم هو وتلاميذه ست 
cya Cul gin‏ العمل الشاق تمكن. بعذها.من تقديم معالجة وإذارة معلوماتية gail‏ 
لغوي يصل إلى ثلاثماكة ألف كلمة باس تخدام الحاسب الآلي 
-(Govindankutty:1973)‏ و ى علماء لغة الذخائر اللغوية في عصرنا 
الحالي أن استخدام الطرق اليدوية في تدوين النصوص على الورق أصبح 
من الطرق العقيمةء وأن تلك الأعمال الشاقة يمكن الاستغناء عنها باس تخدام 
لوحة المفاتيح التي يتم إدخال المعلومات من خلالها إلى الحاسب الآلي. 

في منتصف ثمانينيات القرن العشرين أصبح بمقدور علماء الذخائر 
اللغوية إنهاء العمل في إدارة المعلومات اللغوية داخل حاسبات كبيرة الحجم 
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بسرعة نسبيةء وقد كان مثل ذلك العمل يحتاج وقتا طويلا في السبعينيات؛ 
حيث كان الحاسب يستغرق ما يزيد عن ساعة للبحث عن معدل تكرار كلمة 
مثل "7760" في ذخيرة لغوية يصل عدد كلماتها إلى مليون كلمة؛ أما مع 
حاسبات الثمانينيات فقد أصبح هذا العمل لا يستغرق أكثر من عدة دقائق. أما 
الآن فبإمكان الحاسبات الشخصية أن تحتوي أقراصا صلبة ذات سعة تخزينية 
كبيرة ووحدات معالجة ذات سرعة هائلة ويمكنها القيام بأعمال تخزين 
وتحليل للنصوص بصورة أكثر سهولة وملائمة. 

وقد سبق أن ساهم خبراء الحاسب في بداية ثمانينيات القرن العشرين 
في حل بعض الإشكاليات الفنية التي كانت تعترض علماء الذخائر اللغوية في 
مجال استخدام الحاسب في التحليل اللغوي. ومع بداية التسعينيات ساهم 
التطور السريع للحاسبات والبرمجيات المتخصصة في تحليل الذخائر اللغوية 
وتسويقها بصورة تجارية في إزالة الخوف أمام العلماء وتشجيعهم على 
استخدام الحاسب وابتكار البرمجيات المساعدة على تحليل الذخائر اللغوية. 
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الفصل الخامس 
مجالات البحث في علم الذخائر اللغوية 


المستهدف الأساسي من علم الذخائر اللغوية هو النصوص اللغوية؛ 
وهذه النصوص هي المصدر الرئيس في تقديم الوصف والبراهين اللغوية. 
ومن بين أنواع ذلك الوصفء تقديم الوصف الكمي لتوزيع المفردات 
والتعبيرات داخل اللغة. وهذا المنحى البحثي تطوّر تدريجيًا ليصبح أحد 
المكونات الأساسية التي لا غنى عنها في الدراسات اللغوية» وهذا يتشابه 
تمامًا مع ما أشار إليه ليتش Leech‏ عام ۱۹۹۲ قأئلا: "إن الهدف من البحث 
اللغوي هو وصف الاستخدام اللغوي وليس وصف القدرة اللغوية؛ لأن متابعة 
الطبيعة اللغوية ومراقبتها وسط بيئة الاستخدام هي التي تؤدي إلى ظهور 
النظرية اللغوية وليس العكس". | 


ومن ثُمَّ نجد أن علم اللغة يختلف عن النظرية اللغوية عند التحويليين 
التوليديين فهذا العلم ليس نظرية لغوية» ولا يمكن أن نطلق عليه أنه فرع 
مستقل أو جديد من أفرع علم اللغة» وإنما هو الوسيلة المنهجية التي يتبعها 
علماء اللغة في إجراء البحوث اللغوية. إن علماء اللغة في أثناء بحثهم في 
جوهر اللغة وعناصرها وأبنيتها ووظيفتها يحتاجون إلى أدلة وقرائن لغوية 
لوصف ما هو ممكن داخل اللغة. وهذه القرائن اللغوية يستخلصها علماء 
اللغة من مراقبتهم ودرسهم للظواهر اللغوية في عصور مختلفة» ويتأتى ذلك 
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ما عن طريق الاستقراء والجمع وإما عن طريق مراقبة اللغة ووصفها في 
مستوييها الشفهي والتحريري. وفي الدراسات القائمة على الذخائر اللغوية 
يمكن استخلاص تلك الحقائق بصورة مباشرة من النصوص. وفي تلك النقطة 
نجد أن علم الذخائر اللغوية يختلف عن النظرية اللغوية التي تعتمد على 
القرائن الجدلية والمنطقية التي يتبعها علماء اللغة التقليديُون» فعلم الذخائر 
اللغوية لا يقدم احتمالات ظهور المفردات والأبنية والوظائف المختلفة داخل 
Jy cand Aa‏ بق ابا مد لأت قور طك الور اللغوية داخل اللغة. 
وهذا العلم يتشابه مع باقي علوم اللغة في كونه يبحث في طبيعة اللغة وأبنيتها 
ووظيفتها كما يبحث أيضنًا في وسائل اكتساب اللغة والتحول اللغوي وتَغير 
اللغة. ونقاط التركيز في هذا العلم هي المفردات والوظائف النحوية لتلك 
المفردات وليس النحو بمعناه الضيق. 
١‏ - إنشاء الذخائر اللغوية وتصميمها 

الذخائر اللغوية هي المصدر الذي يمد علم الذخائر اللغوية بالمادة 
اللغوية؛ ولذلك فإن تصميم الذخائر اللغوية وتأليفها هو أساس البحث في هذا 
العلم. وهذا التصميم يضم في معناه تصميم الذخيرة اللغوية ذاتهاء ووسائل 
جمع المادة اللغوية وتسجيلها وإدارتها. ولا يُقصد بالذخيرة اللغوية ذلك 
- التجميع السطحي للنصوصء وإنما يقصد به أن تكون تلك النصوص معبّرة 
عن اللغة بصورة عامةء أو في أحد التخصصات. ولذلك فعند تصميم ذخيرة 
لغوية ينبغي أن تكون البداية بالعمل طبقا لهدف عام يحكم بناء المادة اللغوية 
والتفكير بصورة دقيقة في المبادئ التي ستَتَبّع في اختيار العينات اللغوية 
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وتوزيع تلك العينات داخل إطار اللغة؛ وذلك لنتمكن قدر المستطاع من جعل 
تلك الذخيرة اللغوية تمثل اللغة في فترة زمنية محددة. 

ونظرا إلى عدم وجود مؤشرات كمية ثابتة توضح لنا الشروط التي 
يمكن معها اعتبار العينات اللغوية ممثلة للغة في إطارها الأشملء فليس أمامنا 
إلا أن نستعين بتجاربنا الذاتية وخبرات من سبقونا في بناء الذخائر اللغوية. 
وانطلاقا من هذا المفهوم» يمكننا أن نقرر أن قواعد اختيار العينات اللغوية 
ونسب توزيعها داخل إطار اللغة من الموضوعات التي يتوقف عليها تطور 
الذخائر اللغوية التي لم يتم التوصل إلى حلول وإجابات لها حتى الآن. 
وبطبيعة الحالء فإن نطاق الذخائر اللغوية ومقاييس حفظها وتخزينها وما إلى 
ذلك تعد قضايا مطروحة ويجب الإجابة عليها في أثناء عملية إنشاء الذخائر 
اللغوية. ومن دون ذلك لا يمكن أن نجعل من الذخائر اللغوية مصادر حقيقية 
يمكن الاعتماد عليها في دراسة اللغة بصورة شاملة ومتكاملة. 


٣‏ تقنيات إدارة الذخائر اللغوية ومعالجتها 

يقصد بذلك تلك الأدوات البرمجية التي سُسْتّخدم في تحليل المادة اللغوية 
وترميزهاء وحمايتهاء وفهرستها. فالذخيرة النصية لا تقتصر فقط على كونها 
وعاءَ يحتوي نصوصنا لغوية» وإنما ينبغي أن تتمتع بقدرات متميزة في 
التخزين والاسترجاع»؛ حتى يمكن أن تتيح لجميع الباحثين فرصة الحصول 
على المعلومات التي يرغبون فيها من المادة اللغوية المخزنة داخل الذخيرة 
اللغوية؛ ولذلك فإن فهرسة المواد اللغوية من الأعمال المهمة. ومن أشهر 
التقنيات المستخدمة في الفهرسة تلك التقنية المعروفة باسم „Concordance‏ 
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لقد حدث ya‏ هائل في نطاق الذخائر اللغوية وأنواعها وسهولة 
التعامل معها وغير ذلك طبقا لزيادة فاعلية أداء الحاسبات. وبالفعل» حدث 
تطوير لعدد كبير من البرمجيات التي تقوم بمعالجة البيانات وتداولها داخل 
الذخائر اللغوية. إلا أن قيمة الذخيرة a‏ باعتبارها مصدرا للمادة اللغوية 
موضع البحث لا يمكن أن ثقاس فقط من حيث الحجمء وإنما ينبغي أن يكون 
عنصر الترميز فيها هو المصدر الذي يحمل قيمة مضافة إلى الذخاثر. بمعنى 
أن يتم ترميز الذخائر اللغوية بأساليب مختلفة» وعن طريق تلك الوسائل 
الترميزية يمكن تعظيم نطاق المعلومات وتوسيعه داخل الذخيرة بصورة 
واضحة. ومن BA‏ نقدم إنجازات أكثر قيمة للباحثين في.مجالات اللغة كافة. 
وبالنسبة إلى الذخائر اللغوية الصينية فإن عملية تمييز حدود الكلمات تعتبر 
بخلاف باقي اللغات الهندأوروبية هي الخطوة الأولى التي تبتی عليها جميع 
مستويات المعالجة اللغوية» ثم تأتي بعد ذلك مستويات المعالجة الأخرى التي 
تتم مع تلك اللغات؛ مثل: الترميز على مستوى co‏ 
مستوى دلالة الكلمات ودلالة الجمل؛ والترميز على مستوى النحوء بالإضافة 
إلى الترميز على مستوى الفقرات والنصوص الكاملة» وغير ذلك من عمليات 
المعالجة. i‏ 


)1( بمعنى إضافة مسافة تفصل بين الكلمات وبعضها داخل النصوص الصينية» نظرًا إلى 
طبيعة اللغة الصينية التي تتكون من رموز متراصة مع بعضها دون مسافات؛ ويعتمد 
القارئ على خبرته اللغوية في وضع تلك الرموز معا في إطار كلمات» أما في حالة 
التعامل الحاسوبي مع اللغة الصينية فتكون هناك حاجة ماسة لوجود تلك 
المسافات. (المترجم) 
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*- استخدام الذخائر اللغوية في البحث اللغوي 

"إن ظهور العديد من وسائل تطوير معالجة المادة اللغوية واستخراج 
المعلومات اللغوية من بين النصوص قد زاد وعمّق قدرتنا على معرفة اللغة 
وفهمها". هاليداي (121)1211141991! لقد قنّمَت الذخائر اللغوية مسصادر 
معلومات قيمة مكنت العلماء من وصف اللغةء وقد استطاع علماء اللغة تقديم 
وصف للمفردات والقواعد داخل اللغة اعتمادًا على تلك الذخائر اللغوية 
le HA‏ وسائط إلكترونية؛ وذلك استنادًا إلى فرع اللغة الذي يتخذ من 
النخائر اللغوية نقطة ارتكاز له. ولم تقتصر موضوعات الدراسة على مراقبة 
إمكانات ظهور الكلمات داخل النصوصء بل تطرقت إلى دراسة حالات 
ظهور تلك الكلمات أيضًا. وبالنسبة إلى الدراسات المتعلقة بتوزيع المفردات 
والقواعد داخل النصوصء فقد ساهمت الذخائر اللغوية في دفع بحوث 
تصنيف النصوص» والتحوأل اللغوي وتلك الدراسات المتعلقة بتغير أشكال 
اللغة. وعن طريق استخلاص المعلومات من مواد لغوية كبيرة الحجم؛» قدمت 
الذخائر اللغوية معلومات وافرة عن السياقات النصية من شأنها أن تخدم 
مجال الدراسات الدلالية للغة. ' 


٤‏ - تطبيقات الذخائر اللغوية في علم اللغة الحاسوبي 
إن التطبيقات التي يقدمها الوصف اللغوي القائم على الذخائر اللغوية 


هي ذلك المجال المليء بالإبداع العلمي والتطبيقي في علم الذخائر اللغوية. 
فمن الممكن استخدام نتائج البحث في علم الذخائر اللغوية لعمل تطبيقات في 
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معالجة اللغات الطبيعية وتمييز الأصوات اللغوية ونظم الترجمة الآلية. ومع 
بداية التسعينيات» شغلت الدراسات الإحصائية التي تمت على ذخائر نصية 
كبيرة الحجم مركز الصدارة تدريجيًا في مجالات معالجة اللغات الطبيعية. 
مجمل القول: إن فريقا من العلماء في علم الذخائر اللغوية يتولى البحث في 
أساليب تصميم الذخائر اللغوية ومنهجياتهاء وهناك فريق آخر منهم مهتم 
بالبحث في وسائل تحليل النصوص ومنهجيات معالجتهاء وهناك فريق ثالث 
وهو القسم الأكبر الذي يهتم بالبحث في توصيف اللغة داخل الذخائر اللغوية 
وبحث تطوير التطبيقات القائمة على ذلك. 
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الفصل السادس 
حول إعداد هذا الكتاب 


الباب الأول: من هذا الكتاب es‏ القارئ بالمفاهيم الأساسية حول 
علم الذخائر اللغويةء ويستعرض بصورة مبْسّطة تاريخ تطور هذا العلم» 
بالإضافة إلى شرح لمجالات البحث في علم الذخائر اللغوية. أما الأبواب 
التالية من الكتاب فتتناول تلك المجالات بمزيد من الشرح والتحليل. 

الباب الثاني: يتناول بالتفصيل بناء الذخائر اللغوية ويتعرض بمزيد من 
التعمق لبعض القضايا التي يجب أخذها بعين الاعتبار عند العمل في الذخائر 
اللغوية؛ بغرض إقرار بعض المبادئ الواجب توافرها عند بناء الأنواع 
المختلفة للذخائر اللغوية» وفي نهاية الباب عرف بعض الل ذخائر اللغوية 
المهمة داخل الصين وخارجها. 

أما الباب الثالث: فيتعرض للتقنيات الخاصة بإدارة الذخائر اللغوية 
ومعالجتها في إطار ثلاثة محاور أساسية: تقنيات فهرسة الذخائر اللغوية 
(فهرسة الكلمات)ء وأساليب الإحصاء المستخدمة مع الذخائر اللغوية» وترميز 
الذخائر وما إلى ذلك. وتعتبر النقطة الثالثة هي المحور الرئيس لهذا الباب. 

أما الباب الرابع: فيتناول الدراسات اللغوية القائمة على الذخائر اللغوية 
ويتعرض إلى وسائل الوصف الكمي المستخدمة في وصف المستويات 
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المختلفة للغة بغرض التعبير عن خصائص اللغة عند الاستخدام. وفي 
. النهاية» يقدم هذا الباب بعض الأمثلة الحقيقية عن تطبيقات الذخائر اللغوية 
على اللغتين الصينية والإنجليزية. 

ويركز الباب الخامس: على تطبيقات علم الذخائر اللغوية في مجال 
علم اللغة الحاسوبي؛ بمعنى كيفية الاستعانة بنتائج البحث في علم الذخائر 
اللغوية لعمل تطبيقات تخدم مجالات معالجة اللغات الطبيعية كافة. 
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الباب الشاني 
تصميم الذخائر اللغوية وتطويرها 
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إن أول مَهْمّة يُكلّف بها من يعمل في حقل علم الذخائر اللغوية هي 
عملية بناء الذخيرة» ومن هنا ينبغي له أن يَتَخذْ مجموعة من القرارات 
الحاسمة بشأن المادة اللغوية التي ستتضمنها الذخيرة اللغوية ووسائل جمع 
تلك المادة وغير ذلك من الإجراءات» هذا بالإضافة إلى ضرورة أن يتمتع 
من يقوم ببناء الذخيرة على القدرة على التحكم في المشاكل التي قد تظهر في 
مراحل إدارة الذخيرة اللغوية بعد تأسيسها. أما علماء اللغة الذين يتعاملون مع 
الذخيرة بعد بنائها فعليهم أن يتمتعوا بالقدرة على معالجة جميع الأمثلة اللغوية 
التي تظهر في الذخيرة اللغوية. 
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الفصل الأول 


تصميم الذخائر اللغوية وإشكاليات تجميع المادة اللغوية 

إن الغرض الأساسي الذي يسعى إليه علماء اللغة من إنشاء الذخائر 
اللغوية هو استخدام تلك الذخائر في عمليات استقراء التراكيب اللغوية 
وتحليلها والتعرف على طرق استخدامهاء فقد انتبه جوهانسون !14)١194(‏ 
في منتصف تسعينيات القزن العشرين إلى أن أكثر فعل يقترن مع كلمة 
"Corpus"‏ هو فعل "1أم0022" بمعنى تجميع» وبالفعل فقد كانت عملية 
تجميع المادة اللغوية داخل الذخائر اللغوية ووضع هيكلية بنائها وتحديد نطاق 
الذخائر اللغوية من الموضوعات التي ظلت تشغل علماء الذخائر اللغوية 
طوال الفترة من ستينيات حتى سبيعنيات القرن العشرين. 

إن نقطة الانطلاق التي تبدأ منها عملية تصميم الذخائر اللغوية 
وتجميعها هي: كيفية جعل المعلومات اللغوية التي ستّمئتخرج من تلك الذخائر 
منطقية ويمكن الاعتماد عليها. ولذلك co} "\Kennedy:1998) gais L‏ 
أول مشكلة تواجه مصممي الذخائر اللغوية» ألا وهي إلى أي مدى Bs‏ 
البيانات اللغوية التي تحتويها الذخيرة مُعبّرَة حقا عن البناء اللغوي المطلوب 
دراسته. إن هذه المشكلة يمكن النظر إليها من خلال عدة زوايا؛ منها: هل 
العينات اللغوية للذخيرة ستكون عينات ثابتة أم متغيرة (استاتيكية أم 
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دتاميكية)! وإلى أي مدى يمكن اعتبار حجمها Aad Miaa‏ اللغة؟ وما الحجم 
الذي ينبغي أن تكون عليه الذخيرة حتى يمكن أن تفي بالاحتياجات العامة أو 
OT‏ أغراض البحث اللغوي؟ وكم عدد العينات التي تحتويها 
الذخيرة اللغوية؟ وما حجم كل عينة؟ وفيما يلي نقدم مناقشة تفصيلية لكلل 
سؤال من تلك الأسئلة التي طرحها كينيد 


أولاً: الاستاتيكية والديناميكية 


الذخيرة اللغوية يمكن جمعها بالاعتماد على نصوص استاتيكية ثابتة» 
والغرض من ذلك محاولة الحصول على عينات لغوية تكون ممثلة للغة في 
فترة زمنية محددة. والذخيرة اللغوية التي يصل حجم مادتها مليون كلمة 
تندرج تحت هذا النوع من الذخائر اللغوية. مثال على ذلك ذخيرة إس إي يو 
1 التي حاولت اختيار عينات للنموذج البريطاني من اللغة الإنجليزية في 
ظروف استخدام مختلفة على المستويين التحريري والشفهي بصورة ثابتة مما 
يجعل من تلك الذخيرة اللغوية مصدرا مُمَدَلا للغة الإنجليزية بصورة عامة. 
وعند تصميم هذا النوع من الذخائر اللغوية دائمًا ما نكون حريصين عند 
التعامل مع بعض القضاياء مثل أسلوب الكتابة ونطاق جمع العينات وغير 
ذلك. وتعتبر الدراسة :التي أصدرها كويرك (1:1د©) وآخرون! عام 
6 التي مُمّيّت باسم "موسوعة قواعد اللغة الإنجلıزيa" (Comprehensive‏ 
ud 8 Grammar Of English)‏ كتابتها بناء على ما قدمته ذخيرة إس 
ye (SEU) s cs!‏ معلومات لغوية؛ وكان كويرك يعتقد أن هذه الذخيرة 
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اللغوية أشبه بمن ياتقط صورة سريعة للإنجليزية البريطانيةء فهي مثل 
صورة لمنظر طبيعي تم التقاطها بسرعة» بغرض تسجيل الملامح الرئيسة 
لذلك المشهد. وعلى الرغم من أن مصممي تلك الذخيرة استخدموا أسلوب 
العينات كنمط رئيس لبنائهاء فإنهم لم يستطعوا حصر جميع الظواهر اللغوية 
في متنها. وفي الحقيقة فقد جَمَعَت بعض النصوص العامة؛ ولذلك فهي لسم 
تأخذ عن اللغة إلا سلسلة من اللقطات والشرائح اللغوية بشكل استاتيكي. 
والحقيقة أن هذا النوع من الذخائر اللغوية أشبه بمحاولة تجميد مجرى تطور 
اللغة في لحظة بعينها. ولكن نظر! إلى أن مصممي الذخائر دائمًا ما 
يستعينون بعينات لغوية ونماذج نصية محددة العدد في بناء الذخائر اللغوية» 
فمن الممكن أن يتم مقارنة ذلك النوع من الذخائر القائمة على أسلوب البناء 
عن طريق العينات مع نماذج أخرى من الذخائر اللغوية مشابهة من حيث 
طريقة البناء. ومن الممكن النظر إلى كل من الذخائر اللغوية صغيرة الحجم 
أو الكبيرة على أنها ذخائر لغوية استاتيكية على cel gu ha‏ لدرجة أننا 
نستطيع القول: إن ذخيرة بي إن سي الإنجليزية 8116 كبيرة الخهم التي 
يصل عدد كلماتها إلى مائة مليون كلمة من النصوص اللغوية الاستاتيكية. 
الفكرة الأخرى التي تَطرَح عند بناء الذخائر اللغوية هي تلك الفكرة 
القائمة على بناء ذخائر لغوية ديناميكية متغيرة أو ذخائر لغوية لمراقبة 
(monitor corpus) 4; 92lll ca‏ وهذا النوع من الذخائر أشبه 
بالصور المتحركة ولا تُعْتَبّر لقطة سريعة تؤخذ للغة في لحظة ما. وقد 
أطلقت تلك التسمية على هذا النوع من الذخائر لأنها نقتم وسيلة فعالة تمكننا 
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من مراقبة نماذج الاستخدام اللغوي مقترنا بحالات التغير التي قد تلحق باللغة 
مع مرور الوقت. وهذا النوع من الذخائر يَعْتمد على تجميع كميات هائلة من 
النصوص اللغوية في أوقات معينة. ثم الاستعانة ببعض البرمجيات للبحث 
عن معلومات إحصائية طبقا. لأهداف وصفية معينة يرغب الباحثون في 
التوصل إليها؛ هذا بالإضافة إلى إمكانية استخلاص بعض النتائج عن تلك 
الظواهر اللغوية التي يتم التوصل إليها واستنتاجهاء على سبيل المقال 
ملاحظة تواتر بعض التراكيب الجديدة وأنماط الكلمات داخل اللغة» أو حدوث 
بعض التغيرات في استخدام الكلمات القديمة» أو في قدرة تلك الكلمات علسى 
الاقتران مع كلمات أخرى. وهكذا يقدم النمط الديناميكي للذخائر اللغوية 
معلومات متلاحقة عن التغير الذي يطرأ على اللغة في التصوص الحديثة. 
وقد وصف سنكلير (581061215) هذا المفهوم عن الذخائر اللغوية الديناميكية 
قائلاً: 'إننا كما لو كنا سير أغوار التحول اللغوي الذي يحدث مع سريان 
اللغة في مجرى الزمن". إلا أن الذخيرة اللغوية التي يصل عدد مفرداتها إلى 
مائة مليون كلمة تبدو كبيرة gle tha‏ خطوات معالجة أية ظاهرة لغوية. 
ونظرا إلى أن العناصر التي تتكون منها الذخيرة اللغوية» وطرق الاس تخدام 
اللغوي لتلك العناصر دائما ما تتغير بشكل مستمرء فإن هذا يجعلنا غير 
قادرين على إجراء دراسات مقارنة بين الذخائر اللغوية عندما يتغير نوع 
النصوص المحتواة في داخلهاء مثل مقارنة التحول في معدل تكرار الكلمات 
عندما يتغير نوع النص. هذا بالإضافة إلى أن المادتراللغوية في الذخيرة 
الديناميكية يتم جمعها بصورة عفوية ولا يكون هناك ضمان لتوازن تمثيل 
العينات في كل التخصصات. 
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ففي تلك الأحوالء يحل الاهتمام بكمية المادة اللغوية وحجمها تلقائيا 
محل التصميم الدقيق والتخطيط المحكم لطريقة جمع العينات اللغوية. هذا 
بالإضافة إلى جمع تلك النصوص ومعالجتها وتخزينها على وسائط التخزين 
الصلبة داخل هيكلية الحاسب. الأمر الذي يحتاج إلى تكاليف مادية عالية 
تتمثل في الحاجة إلى خبرات تقنية وبرمجيات معقدة لإجراء عمليات التحليل 
والمعالجة؛ ولذلك فإن فرص ممارسة الأبحاث العلمية القائمة على استقراء 
الذخائر اللغوية وتحليلها نَعدُ قليلة أمام جمهور العلماء المتخصصين منهم 
والعامة. ولا يقدر على مثل هذا النوع من الذخائر اللغوية إلا المؤسسات 
العملاقة والهيئات الحكومية وبعض الجهات المعنية المتخصصة. ويمكن 
لبعض الباحثين المنفردين التعامل مع تلك الذخائر اللغوية نظير مبالغ معينة 
تدقع كرسوم حتى يُمسْمح بالتعامل مع المادة اللغوية المدونة بداخلهاء ونجد أن 
غالبية البحوث القائمة على ذخائر لغوية يقوم بها أصحابها بصورة منفردة 
مثلهم مثل معظم القائمين بأبحاث لغوية تقليدية» وقليلا ما يكون هناك تعاون 
بين مجموعات عمل. ولا يتم ذلك إلا عن طريق تبادل الأفكار بين علماء 
اللغة فيما يخص تقنيات الحاسب الآلي وتبادل النصوص. ولذلك إذا أردنا 
للذخيرة الديناميكية أن يقتصر استغلالها على قلة من العلماء فسوف يكون 
ذلك بمثابة إهدار كبير للمال والجهد. 

إن اللجوء إلى استخدام الذخائر اللغوية الديناميكية pii‏ لعلماء اللغة 
رؤية دقيقة وواقعية عن اللغة (على الأخص في مجال صناعة المعاجم 
وأبحاث علم اللغة التاريخي)؛ وتتمثل تلك الرؤية في رصد مراحل التغير 
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اللغوي ووسائل استخدام الكلمات التي لها معدل استخدام منخفض. ولكن أيَا 
ما كان الأمر فإن هذا النوع من الذخائر اللغوية قادر أيضًا على ضمان 
إمكانية دراسة الكلمات ذات معدل التكرار الأعلى والمتوسط أيضاء فضلا . 
عن البحوث اللغوية المتعلقة بالصوتيات والصرف والنحو. 

وفي الوقت الحالي أدى النمو المضطرد في قدرة الحاسب على تخزين 
كم هائل من البيانات ومعالجتها إلى إتاحة التعامل مع المواد اللغوية فائقة 
الحجم التي تتعدى مائة مليون كلمة. بالإضافة إلى أن هناك حاجة ماسة 
لوجود ذخائر لغوية بمثل هذا الحجم لاستخدامها في التطبيقات المتعلقة بتمييز 
الأصوات وتحويل الأصوات اللغوية إلى مكافئها التحريري وغير ذلك. ولهذا 
نعتقد أن بناء الذخائر اللغوية حاليًا ينبغي أن يقترن بسعي حثيث نحو جمع ما 
يمكن جمعه من المواد اللغوية حتى نتمكن من بناء ذخائر لغوية فائقة.الحجم. 
إلا أن مشكلة إنشاء هذا النوع من الذخائر اللغوية تتمثل في كيفية التوصل 
إلى وسيلة لتنظيم المواد اللغوية وتصنيفها في تلك الذخيرة حتى يمكن إتاحة 
الفرصة لإعادة استدعائها بما يتناسب مع التوجهات المختلفة للبحث اللغوي؛ 
ومساعدة الباحثين على تكوين ذخائر نصية متنوعة من رحم الذخيرة الأم 
لأغراض بحثية معينة. على سبيل المثشالء إذا أردنا أن نستطلع قوائم 
المفردات والمصطلحات المستخدمة في مجال ماء يمكننا أن نجتزئ من 


الذخيرة الأم ذخيرة متخصصة تساعدنا على استخراج تلك المعلومات. 


ثانيًا: المرجعية والتوازن 
الموضوع الآخر المتصل باستاتيكية الذخيرة اللغوية أو ديناميكيتها هو 
الشروط الواجب توافرها في النصوص اللغوية حتى يمكن اعتبارها مناسبة 
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يمكن الاعتماد عليها في البحث اللغوي؛ وفي الحقيقة يُعْتبّر هذا التساؤل مسن 
الموضوعات الشائكةء حتى الآن لم يتوصل العلماء ران كته شرل 
المقاييس التي تغطي للذخيرة اللغوية مرجعية علمية ومعايير مُحَدّدة لتحقيق 
توازن النصوص في داخلها. 

وقد سبق أن أشار ليتش )1991 I9 (Leech:‏ إلى أن مدى مرجعية 
الذخيرة اللغوية يعود إلى قدرتها على استخلاص معلومات لغوية تمثل اللغة . 
في إطارها العام أو المتخصص حسب توجهات البحث اللغوي. وقديمّاء كانت 
الهيكلية التي بُنيت على أساسها ذخيرة براون (ه8808) أو ذخيرة لوب 
(108) تعتمد على مراعاة الدقة في لمن ولذلك تم الاتفاق على أن 
المادة اللغوية في هاتين الذخيرتين تمثل مرجعية للنموذجين ين البريطاني 
والأميركي من اللغة الإنجليزية كل على حدة. 

وفي حقيقة الأمرء توصل العلماء مؤخرا إلى حكم على مقاييس 
المرجعية ومعايير التوازن في الذخائر اللغويةء إلا أن ذلك الحكم لا يتعدى 
كونه حكما تقريبيًا وليس قاطعًا. أما جوهر المشكلة فهو: ما الشيء الذي 
تمثله الذخيرة اللغوية؟ لقد بحث العلماء عشرات السنوات في تحليل الكلام 
والدراسات المتعلقة بعلم اللغة الاجتماعي» وعلى الرغم من أن العينات 
اللغوية لا تكفي للتعبير عن أسلوب أو موضوع لغوي معين» فإنه ما زال 
هناك من يعتقد أن الذخيرة اللغوية المكونة من كم كبير من النصوص قادرة 
على أداء تلك المهمة. خلاصة القول: إن تلك النماذج اللغوية يمكن استخدامها 
فقط للتعبير عن جوهر. اللغة. على سبيل المثال عندما نتناول. علم الصوتيات 
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في لغة ماء على الرغم من عدم إمكانية تشابه الأصوات بين متحدثي اللغة 
الواحدة» فإننا نستطيع استخلاص النظام الصوتي لتلك اللغة دون أدنى 
صعوبة. وعلى هذا فإن بناء المعاجم الكبرى والوصف النحوي لهيكل لغة ما 
لا يخرج عن هذا المفهوم الذي يقدم وصفا إجماليًا للغة. 

وهناك إشكالية أخرى تظهر عند تصميم الذخائر اللغوية وهي كيفية 
ضمان تحقيق توازن بين الموضوعات المختلفة المكونة لبنية الذخيرة اللغوية؛ 
فقد كانت غالبية الذخائر اللغوية في المراحل الأولى تنحاز للمستوى 
التحريري من اللغة؛ وتّعْطي السلطة الأعلى لهذا الشكل اللغوي من 
النصوصء لدرجة أنهم كانوا لا يستخدمون إلا النصوص التحريرية لبناء 
الذخائر اللغوية. والسبب في ذلك يرجع إلى سهولة التعامل مع النصوص 
المكتوبة باستخدام الوسائط الإلكترونية(') لدرجة أنه في الجيل الثاني مسن 
الذخائر اللغوية كبيرة الحجم مثل ذخيرة بي إن سي 8310 التي يصل حجمها 
إلى مائة مليون كلمة لم تتجاوز نسبة المصادر اللغوية الشفهية بها مقدار 
٠‏ من إجمالي حجم الذخيرة. وعلى العكس من ذلك نجد أن بعسض 
الذخائر اللغوية مثل ذخيرة آي سي إي JEG ICE‏ المادة الشفهية بها نسبة 
۰ من إجمالي حجمهاء أما المادة التحريرية فتمثل 904٠‏ فقط. وهذا 
النوع من الذخائر يمثل أقلية من بين إجمالي عدد الذخائر الموجودة حتى 





)‘( لا يخفى عن القارئ أن قدرة الحاسب الآلي على التعامل مع المستوى التحريري من 
اللغة قد سبقت المستويات الأخرى؛ لذلك تأخر تدوين اللغة في إطارها المنطوق داخل 
الذخائر اللغوية كثيرًا عن المكافئ التحريري لها. (المترجم) 
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الآن. حتى لو تحدثنا عن ذخيرة لغوية تحريرية؛ فمن الصعب الاستهانة 
بالإجابة على التساؤلات التي تتردد عن نوع المادة اللغوية التي ينبغي أن 
تتوفر في تلك الذخيرة. ولا توجد حتى الآن وسيلة مُتَعَارّف عليها لتصنيف 
أنواع النصوص المُسَجّلة داخل الذخائر اللغوية. 

والأكثر من ذلكء فإننا لا نعرف حتى الآن ما النسبة التي تضمن لنا 
التوازن بين عينات النصوص في التخصصات المختلفة. لدرجة أن الذخائر 
اللغوية التي تم تصميمها بالفعل ليس من المنتظر اعتبارها ممدلّة عن الإطار 
الكامل للغة» وإنما تعبر عن مجالات ونصوص وموضوعات محددة. وعلى 
الرغم من ذلك فإننا نجدها تعاني من مشكلة التوازن بين النصوص. وفي هذا 
المجالء لا يوجد إلا نوع واحد من الذخائر اللغوية لا تثار حوله إشكالية 
التوازن هذه» وهو ذلك النوع الذي يتكون من المؤلفات التي نشرّت في فترة 
زمنية معينة كأن تشتمل الذخيرة على المؤلفات الكاملة لأديب معين أو 
نصوص كاملة لنوع معين من الفنون الأدبية. إن توازن العينات النصية 
داخل الذخائر اللغوية لا يمكن النظر إليه على أنه ذلك الذي يتحقق بمنجرد 
النظر إلى مصدر المادة اللغوية كأن نهتم بتحقيق التوازن بين العينات 
التحريرية والعينات الشفهية؛ لأنه في حقيقة الأمر لا يوجد أحد يستطيع أن 
يعرف على وجه الدقة ما نسبة الكلمات الشفهية إلى الكلمات التحريرية التي 
تتولد في أي يوم من أيام اللغة. ولو نظرنا إلى الأمر من حيث الشكل اللغوي 
لوجدنا أن نسبة ما نستقبله أو ننتجُه يوميًا من الكلمات الشفهية أكبر بكثير من 
الكلمات التحريرية. ولكن النص المكتوب (على سبيل المثال مقال صحفي في 
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جريدة) من الممكن أن يقرأه ما يزيد عن عشرة ملايين قارئ» وعلى العكس 
بن ذلك cays iy gall Sigal of ag‏ تخسن شري اء وين تة ل 
يمكن أن تتاح الفرصة لشخص آخر أن يستمع إليه» وعلى المنوال نفسه نجد 
أن حوارا في نشرة الأخبار من الممكن أن يصل إلى آذان عدد أكجر من 
الناس مقارنة بذلك الحوار الذي يتم بين البائع ومشتزي الحذاء. 

إن التوازن من الأمور التي يصعب تحقيقها في الذخائر التحريرية 
أيضًا. وقد ذكر سنكلير عام ١15١‏ أن أبسط ما يجب النظر إليه من قواعد 
عند بناء ذخيرة لغوية تحريرية لضمان أقل حد من التوازن هو التمييز بين 
النصوص القصصية وغير القصصية؛ والتمييز بين الكتنب والجرائد ' 
والمجلات» والتمييز بين المطبوعات الرسمية وغير: الرسميةء بالإضافة إلى 
مراعاة عُمْر الكاتب وجنسه وجنسيته وغير ذلك. وهناك تساؤل آخر يتمحور 
حول التوازن بين الكتاب الذين يمثلون الأقلية وبين القراء» من بين هؤلاء 
الكاتب الذي يتمتع بالسلطة الأعلى» والكاتب الذي تحظى مؤلفاته بأكبر عدد 
من القراء. وقد توصل مصممو الذخائر اللغوية إلى أساليب أكثر تعقيدا 
وتشابكا في محاولاتهم لتحقيق المرجعية والتوازن للذخائر اللغوية. وهكذا 
تعتبر ذخيرة بي إن سي 8٥‏ خير نموذج لذلك. 

ناقشت سومرز (5:1991ءددمن5)!”'! بعض الإشكاليات المُّهمّة التي 
ينبغي التفكير فيها لجعل الذخيرة اللغوية تتصف بالمرجعيةء وقد تنبهت إلى 
أننا حتى لو أخذنا ذخيرة لغوية تحريرية يصل حجمها إلى مليون كلمة فإن 
تلك الذخيرة ستظل في إطار الذخائر الصغيرة جذا. وذلك إذا قارناها 
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بمضمون مقالات الجرائد وبالمقالات العلمية» فسوف نجد أن هناك اختلافا 
بينهما من حيث طبيعة المفردات. وطبقا لتلك الملاحظة دعت سومرز إلى 
البدء ببناء الذخيرة باتباع أسلوب موضوعي لاختيار العينات. ثم is‏ ذلك 
تعديل محتوى الذخيرة طبقًا لتحليل يتم عليها بغرض خلق التناسق بين المادة 
اللغوية لتحقيق التوازن فيما بين العينات اللغوية الواردة فيها. وقد ذكرت لنا 
سومرز العديد من الوسائل التي تمكتنا من اختيار النصوص التحريريةء منها 
مدى تمتع النصوص بقيمة علمية 'مدى تأثير تلك النصوص" وأسلوب اختيار 
العينات العشوائيةء ودرجة انتشار النص وذيوعه؛ أو درجة إقبال القراء 
É ag ue‏ نجد أن النصوص الصحفية ستكون أكثر النصوص التي يُقبل 
عليها جمهور القراء؛ ومدى إمكانية الاطلاع على تلك النصوصء ومدى 
توافر معلومات إحصائية عن النصوص الأكثر تداولا بين القراءء وأخيرا 
مدى الخبرة في استخدام اللغة في عمل وصف دقيق لطريقة اختيار 
النصوصء وما إلى ذلك. وبطبيعة الحال» فإن الممارسة العملية لبناء ذخيرة 
لغوية لا بد أن تجمع بين الأساليب السابقة ابقة مثل اللجوء إلى التَعرّف على مدى 
تأثير قوة انتشار نوع معين من النصوص على إمكانية اختيار هذا النوع 
. داخل الذخيرة اللغوية وما إلى ذلك. 

و ل ا ا و 
النصوص خلالها من العناصر المهمة جدًا. فالمؤلفات التاريخية الشهيرة قد 
تصبح موضع اهتمام قطاع عريض من القراء أو أنها قد تفقد تفقد تأثيرها. ومن ناحية 
أخرى نجد أن الكتب الدينية مثل الكتاب المقدس للملك جيمس a (King James)‏ 
تمت ترجمته منذ عدة مئات من السنين ولكنه ما زال مؤثرًا حتى الآن. 
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يلجأ مصممو الذخائر اللغوية في الصين حاليًا إلى عناوين 
الموضوعات والشكل الأدبي للنصوص لتحقيق التوازن داخل بنية الذخائر. 
وقد طرّحت جامعة اللغاتث والثقافة ببكين yd go‏ فكرة لبناء ذخيرة لغوينة 
كبيرة الحجم تعتمد على مفهوم درجة تداول النصوصء كمعيار لمرجعية . 
المادة اللغوية وتوازن الموضوعات داخل الذخيرة. 


ad‏ الحجم 

03 كيف يمكن الوصول بالذخيرة اللغوية إلى درجة يمكن القول معها: إنها 
متوازنة وتتمتع بمرجعية لغوية؛ بالإضافة إلى إمكانية استخدامها في عمل 
دراسات مقارنة؟ تتوقف Aula)‏ هذا السؤال على جودة المادة اللغويةء إلا أنه 
في بعض الأحيان يتم النظر إلى عدد النصوص المكونة للذخيرةء وهذا الأمر 
لا يتعلق فقط بعدد الكلمات داخل الذخيرة ولكن يتطرق أيضنا إلى مدى تنوع 
النصوص التي تحتويها الذخيرةء وعدد الكلمات التي يضمها كل نوع من هذه 
النصوص وما إلى ذلك. وفي الحقيقة أن نطاق المادة اللغوية ومرجعيتها 
يحددان مدى ملاءمة الذخيرة اللغوية للاستخدام» ومدى قدرة الباحثين على 
الاعتماد عليها في البحث العلمي. ولكننا يجب أن نؤكد مرة أخرى أن كر 
حجم الذخيرة اللغوية لا يعني بالضرورة جودتهاء وإنما تتحدد تلك الجودة 

obs‏ على GES Gf le Uf sae‏ اللغة في إطارها العام. 


. حجم المادة اللغوية‎ -١ 
في سبعينيات القرن العشرين كانت الذخائر اللغوية التي يصل حجمها‎ 
إلى مليون كلمة تبدو كبيرة الحجم؛ وكانت الحاسبات العملاقة في ذلك الوقت‎ 
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تستغرق عدة ساعات لعمل فهرسة لكلمات إحدى الذخائر اللغوية. وفي 
الثمانينيات أصبحت فهرسة هذا النوع من الذخائر لا تستغرق أكثر من عشر 
ثوان فقط. وأصبح الجيل الجديد من الذخائر اللغوية مثل ذخيرة كوبيلد 
‘(Cobuild)‏ وذخيرة لونجمان - لانكاستر (1,08281385/12885)©7) تستخدم 
تقنيات المسح الضوئي لتحويل النصوص الورقية إلى مكافئها الرقمي؛ الأمر 
الذي سَهّل عملية إدخال النصوص إلى ذاكرة الحاسب بأعداد كبيرة. ولهذاء 
فقد صاحب ذلك ازدياد في حجم تلك الذخائر اللغوية» وقد اقترح سنكلير عام 
0 قائلاً:201! إنه بالإمكان بناء ذخيرة لغوية ذات فائدة وصغيرة الحجم 
تتراوح بين عشرة أو عشرين مليون كلمة. ولكننا إذا أردنا أن نقتم وصفا 
للنظام اللغوي بأكمله يُعْتَمَد عليه فإن هذا الحجم يظل صغيرًا إلى حد ماء 
لدرجة أن هناك من يعتقد أن الحدود المُقيّدة لكبر حجم النصوص يكاد يكون 
النقيصة الملازمة لبنية الذخائر اللغوية. على سبيل المثال نجد أن سنكلير قد 
سبق له أن أشار في عام ١13١‏ قائلاً: إننا حتى لو نجحنا في بناء ذخيرة 
لغوية من مليار كلمة فسوف تظل أمامنا معلومات لا تظهر في قوائم 
المفردات عن الحالات النادرة لأنواع الكلمات. وفي الحقيقة أن هذا الرأي هو 
ما يشير إليه قانون زييف Jaw)‏ 72101"5) القائل: إننا لو رمزنا بالرمز”” إلى 
عدد مرات تكرار الكلمات من الأكبر فالأقل في الجدول التكراري للكلمات؛ 
وأخذنا ترتيب كل كلمة في ذلك الجدول من الأقل فالأعلى ورمزناله 
:ts (Rank) "r" js hb‏ 

r= 1,2,3,... 
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فسوف نجد أن هناك تتاسبًا عكسيًا بین ۴" و "۰'۳ بمعنی أن: 


k=r*f 


f=k/r 
حيث تشير "2" إلى قيمة ثابتة.‎ 

ولا يصعب علينا ملاحظة أن هناك دالة يمكن تمثيلها بخطين بيانيين 
el‏ الكلمات ٠۴‏ والآخر يمثل ترتيب الكلمات ", 
في الجدول التكراري. وقد أثبتت الدراسات التي تمت على العديد من الذخائر 
اللغوية صحة قانون زييف: فهناك عدد قليل من الكلمات التي تتمتع بنسبة 
تكرار عالية قد عَطْت إجمالي عدد مرات التكرار لمعظم الكلمات المكونة 
للذخيرة اللغويةء ولوحظ أيضًا أن أكثر من نصف عدد الكلمات في تلك 
الذخيرة اللغوية لم يظهر إلا مرة واحدة. وأثبتت دراسة أخرى ei casa‏ 
السنوات الأخيرة أن قانون زييف لا يصلح فقط للاستخدام في دراسة توزيع 
الكلمات داخل Aa‏ وإنما يُستخدم أيضًا في دراسة توزيع القواعد النحوية 
في الاستخدام اللغوي. فمن ناحية» وجدنا أن عدذا قليلاً من القواعد النحوية 
قد غطى إجمالي عدد مرات تكرار معظم الظواهر النحوية الأخرى» ومن 
ناحية أخرى وجدنا أن هناك العديد من القواعد لم يظهر إلا مرة واحدة داخل 
الذخيرة اللغوية. والطريف أننا اكتشفنا أن القواعد النحوية كانت تتزايد بزيادة 
حجم الذخيرة اللغوية. وقد ملت تلك النتيجة الإحصائية تحديًا كبيرًا أمام 
0 الفرضيات الشهيرة التي طرحها تشومسكي التي تقول: إن قواعد اللغة 

محدودة في حين أن عدد الجمل داخل اللغة لا نهائي. 
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ما عدد العلامات التي نحتاجها إذا أردنا أن نقدم وصفا كاملا لإاحدى 
٠‏ اللغات؟ تشير الإحصاءات إلى أن نسبة %٠١ - ٠٠١‏ تقريبًا من إجمالي عدد 
الكلمات المكونة لذخيرة لغوية يصل حجمها إلى مليون كلمة لا يتكرر غير 
مرة واحدة. وقد انتبه كلا من رندل وستوك pte PN (Rundle and Stock)‏ 
5 في حديثهما عن علم المعاجم القائم على الذخائر اللغوية أن كلمة 
E "Break’‏ ع ع ا ال E‏ 
لونجمان/لانكستر AB JS cls ase of (Longman/Lancaster)‏ 

الكلمة في تر كيب مثل: ina "news breaking"‏ "انتشار الأخبار” كان قليلاً 

إلى الحد الذي لا يمكن معه إعطاء معلومة لمؤلفي المعاجم أن هاتين الكلمتين ٠‏ 
تؤلّفان معًا مصطلحًا ينبغي أن يرذ في المعجم. ولكن إذا اعتبرنا أن ظهور 
الكلمة أو التركيب مرة واحدة غير كاف» إذن فكم عدد مرات التكرار التي 
يمكن أن تُّحَدّد إمكانية النظر بعين الاعتبار إلى مصطلح أو معنى كلمة إذا 
تكررت داخل الذخيرة اللغوية؟ على سبيل المشال أُجْرِيّت دراسة على 
ذخيرتي as sli (Brown) osl ss (Lob) os‏ أن %۹۰ من مرات تكرار 
كلمة "Circumstances" gaal! åsa ela "Circumstance"‏ ومن ial‏ 
أخرى لوحظ أن كلمة من الكلمات التي تتمتع بمعدل تكرار عال في 
الإنجليزية ككلمة ٠ه"‏ قد ظهرت ٠٠٠١‏ مرة مقترنة بكلمات أخرى» وهذا 
الرقم كبير جدًا. وبالنسبة إلى علم المعاجم أو أبحاث المفردات والقواعد فإنه 
كلما تضخمت المعلومات المستخرجة آليّا من الذخيرة اللغوية زادت الحاجة 
إلى معالجتها يدويّاء وهذا ما يصعب التعامل معه؛ فالكلمة إذا تجاوز عدد 
مرات اقترانها مع كلمات أخرى ٠‏ مرةء سيمثل ذلك أكبر تحدٌّ يواجه 


79 


صناع المعاجم فيما يتعلق بإشكالية تحليل البيانات. ومن هناء نجد أن علماء 
اللغة ومؤلفي المعاجم يطالبون بضرورة وجود نوع من البرمجيات والتقنيات 
الفعالة تساعدهم في أداء أعمالهم من أجل استخلاص أفضل النماذج اللغوية 
من بين كم كبير من المادة اللغوية. إن هذا ما يحدث عند تحليل المفردات 
ذات معدل التكرار الأعلى داخل الذخيرة اللغوية. وبناءً على ذلكء يمكننا 
القول: إن كبر حجم الذخيرة اللغوية يتسبب في ظهور بعض الآثار الجانبيية 
عند التحليل اللغوي. وعادة ما نجد أن تلك الإشكاليات يتم التغلب عليها 
مباشرة على الحاسب الآلي في أثناء انتقاء العينات. ولكن بالنسبة إلى 
التراكيب التي تظهر مرة واحدة داخل الذخيرة اللغوية يكون هناك حاجة لأن 
تُصنف داخل قائمة فرعية؛ ثم نقوم بالبحث عن الأمثلة التي ترد فيها تلك 
التراكيب في ذخائر لغوية أكبر حجما. 

وقد أظهرت الدراسات أن ذخيرة يصل حجمها إلئ مليون كلمة مشل 
ذخيرة لوب (1.5) أو ويلنجتون Ga Ql sind (Wellington)‏ نحو مائة 
كلمة ورد ذكرها أكثر من ألف مرة. بالإضافة إلى أن هذه القائمة نفسها من 
الكلمات عندما عرضت على ذخيرة بي إن سي (8210) البالغ حجمها مائة 
مليون كلمة» وجد أن معدل التكرار قد تضاعف بصورة كبيرة ليصل إلى 
٠‏ مرةء وأن هذا العدد (ال١٠٠‏ كلمة) قد غطى ما يقرب من 9610 
من إجمالي عدد مرات تكرار الكلمات. أما ال %١‏ الباقية من عدد مرات 
التكرار (التي يصل عددها خمسة ملايين مرة) فقد اقتصرت على حوالي 
خمسمائة ألف كلمة فقط. 
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ولذلك إذا أردنا أن ندرس الظواهر الصرفية داخل لغة ماء وعلى 
الأخص إذا كان هدفنا وضع توصيف دقيق للكلمات ذات معدل التكرار 
المنخفض وأساليب اقترانها مع الكلمات الأخرى ستكون حاجتنا أكبر إلى 
الذخائر اللغوية كبيرة الحجم. ولكن إذا تعذر التعامل مع البيانات الكبيرة فلن 
يكون من المفيد في ذلك الوقت الاستعانة بمثل هذا النوع من الذخائر. حتى 
إذا استطعنا بناء ذخيرة لغوية كبيرة وجمعنا في داخلها مثل حجم المحيط من 
المواد اللغويةء فإذا لم يكن تصميم هذه الذخيرة اللغوية متميزاء لن نتمكن من 
تقديم وصف لغوي من خلالها. بناء على هذا المفهوم يمكننا القول: إن 
الذخيرة اللغوية كبيرة الحجم ليس بالضرورة أن تكون أكثر Mall Ske‏ ما- 
دونا عن الذخيرة الأقل حجمًا. وفي المرحلة الراهنة لا يمكننا أن نقطع بمدى 
ما يجب أن يكون عليه حجم الذخيرة اللغوية العامة أو المتخصصة. ول ذلك 
يرى الكاتب ومعه محللو الذخائر اللغوية أنه من الأفضل الاهتمام بجودة 
المادة اللغوية بدلاً من الإفراط في الاهتمام بحجم الذخيرة اللغوية ونطاقها. 

ويشير المرجع رقم i ISI‏ قائمة المراجع إلى أننا لو أردنا دراسة 
عروض اللغة الإنجليزية على سبيل المثال» فإن ذخيرة لغوية تصل إلى مائة 
ألف كلمة تكفي لهذا الغرض. وإذا أردنا og Jas Gf‏ تحليلاً يمكن الاعتماد عليه . 
عن استخدامات الفعل في اللغة الإنجليزية فسوف يمكننا تنفيذ هذه المَهََة 
اعتمادا على ذخيرة لغوية يصل حجمها إلى خمسمائة ألف كلمة؛ وأن دراسة 
التراكيب النحوية والكلمات ذات معدل التكرار الأعلى تحتاج غالبًا إلى ذخيرة 
تتراوح ما بين خمسمائة ألف ومليون كلمة. كما يمكننا أن نُجْرِي مقارنة بين 
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نتائج تحليل المادة اللغوية في ذخيرة كبيرة الحجم مثل دخيرة بي إن سي 
(8۸€) وبين نتائج التحليل في ذخائر صغيرة مثل لوب (108)»ء وآي سي 
SI (ICE) o)‏ نتوصل إلى حل الإشكاليات المتعلقة بحجم الذخيرة اللغوية 

ومدى مرجعيتها. وبهذه الطريقة يمكننا التوصل إلى معرفة حجم الذخيرة 
. اللغوية الذي يناسب كل غرض من الأغراض البحثية. وبصورة عامة يمكننا 
القول: إنه مهما كان حجم المادة اللغوية فغالبًا ما تزداد نسبة الاعتماد على 
نتائج التحليل اللغوية لتلك المادة والاعتراف بها كلما ازداد عدد العينات 
اللغوية التي تغطي قطاعًا عريضا من التخصصات داخل اللغة. 


-y‏ عدد العينات 

القضية الأخرى المتعلقة بحجم الذخيرة اللغوية هي عدد العينات 
المأخوذة داخل الذخيرة. ففي الجيل الأول من الذخائر اللغوية مثل ذخيرة 
لوب )L08(‏ وذخيرة براون )8۸0W۸(‏ وصلت العينات المٌمَثّلّة داخل 
هاتين الذخيرتين إلى ٠٠١‏ عينةء وكان حجم النصوص في كل عينة لا يقل 
عن ٠٠٠١‏ كلمة. من بينها عدد من العينات كانت تَمَثْل نصًا كاملاء أما 
غالبية العينات فكانت عبارة عن جزء من نص. ونظرا إلى أن النصوص 
التي تَقَتَطّف من مقدمة الكتب وخاتمتها تت تتميز أنها تعبر تعبيرا دقيقا عن 
الخصائص اللغوية المختلفةء لذلك فإن الذخائر اللغوية التي تی بأسلوب 
العينات النصية لا يمكن أن تُعَبّر عن الإطار العام للغة إلا إذا كانت تلك 
العينات تشمل جميع أنواع النصوص اللغويةء وإذا لم يراع ذلك في اختيار 
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العينات فسوف S‏ الذخيرة بالملامح العامة للغة. وعلى العكس من ذلك إذا 
تم بناء الذخيرة على أساس النصوص الكاملة فسوف يؤدي ذلك إلى نقص 
عدد العينات وقلة أنواع النصوص المُمَثلَة داخل الذخيرة. ومن ثم يؤثر ذلك 
في قدرة الذخيرة على أن تكون مُمَثلّة للغة. ولا يمكن التغلب على تلك 
المشكلة إلا بكبر حجم الذخيرة اللغوية. 

وقد قام بيبر (21)81065:1993*! بعمل دراسة عن توزيع عشر 
خصائص لغوية داخل ذخيرتي لوب (108) وإل إل سي cys Alla. (LLC)‏ 
خلال 55 زوج من العينات اللغويةء وقد اختار هذه العينات من مساحة 
عريضة من النصوص الشفهية والتحريرية. حيث كان يختار كل زوج من 
العينات في إطار ألفي كلمة من النصوص مُوَنَعَة بالتساوي على الذخيرتين 
وفي تخصص واحدء ثم يدرس الاختلافات اللغوية بين الاثنين من خلال تلك 
العينات. وكانت النتيجة التي توصل إليها هي أنه يكفي وجود مابين 
٠ 5‏ كلمة حتى. يمكن أن تكون العينة مُعيّرَةَ عن الخصائص 
اللغوية لنص ما. بالإضافة إلى أنه يَعتقد أن عدد 8٠١ - ٠١‏ عينة لغوية 
مختلفة تكفي لدراسة الاختلافات اللغوية الشائعة. 
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الفصل الثاني 
بناء ذخبرة لغوية 

يشير المرجع رقم !*2! في قائمة المراجع إلى أن وضع تعريف للذخيرة 
اللغوية» وتحديد إجمالي حجم النصوص المختارة وأنواعهاء ونسبة تمثيل كل 
نوع من أنواع النصوص داخل الذخيرة من أصعب الأعمال التي تواجه عالم 
اللغة في أثناء بناء الذخيرة اللغوية. ويرى بعضهم أن هذا العمل ينبغي أن 
يُوكل إلى العلماء المتخصصين في علم اللغة الاجتماعي للقيام به. أما علماء 
اللغة فينبغي أن تقتصر بحوثهم على إجراء تحليل للأمثلة اللغوية التي 
تحتويها الذخيرة اللغوية وتوصيفها. ولكن واقع الأمر حاليًا يُشير إلى أن 
علماء اللغة وخبراء الحاسب هم الذين يقومون بأعمال التصميم الخاصة 
بتوزيع العينات داخل الذخيرة اللغوية؛ ومما لا شك فيه أن هذا العمل لا يخلو 
من صعوبة بالغة. 

إن أول شيء يتم التفكير فيه عند بناء ذخيرة لغوية هو الغرض الذي 
تَبنى من أجله تلك الذخيرة» وهل هي ذخيرة للأغراض العامة أم الخاصة. 
نُقَدّم ذخائر الأغراض العامة كمية كبيرة من الأمثلة اللغوية للبحث اللغوي في 
جميع المجالات» أما ذخائر الأغراض الخاصة فتستخدم في إنتاج التطبيقات 
القائمنة على مغاتجة اللغات: Cdn ct‏ مجالا لرا مدا 
ولذلك ينظر البعض إلى هذا النوع من الذخائر اللغوية على أنه إحدى مراحل 
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ابتكار تلك التطبيقات وتطويرها. ويتمحور الغرض من هذا الباب حول 
التعريف بالذخائر اللغوية التي تَصَمّم لأغراض الاستخدام العام. 
أولا: مصادر المادة اللغوية 

تحدم في ذلك وسائل إدخال البيانات المتاحة بالفعل» التي تتعدد 
أشكالها في جمع المواد اللغوية إما عن طريق تحويل النصوص الورقية إلى 
نسخة رقمية أو عن طريق الاستعانة بالنصوص الرقمية الموجوده بالفعل. 
-١‏ تحويل النصوص الورقية إلى ai‏ رقمية 

هناك طريقتان للمساعدة في تحويل النصوص الورقية إلى نسخ 
رقمية'ء أولاهما: 

(i‏ طريقة المسح الضوئي 

زادت في الآونة الأخيرة تقنيات التمييز الضوئي للحروف المطبعية 
بصورة تدريجية؛ ولذلك فإن كميات كبيرة من النصوص المكتوبة بالحروف 
المطبعية يمكن أن تعتمد على تلك التقنيات حتى يمكن تحويلها إلى نسخ 
رقمية. وتجنبنا هذه الطريقة اللجوء إلى لوحة المفاتيح لإعادة كتابة محتويات 





)© الجدير بالذكر أن علماء اللغويات الحاسوبية العرب لم ينجحوا حتى الآن في حل تلك المشكلة بالنسبة 
إلى اللغة العربية» وجميع المحاولات المطروحة في هذا المجال لا ترقى لمستوى الاس تخدام؛ يسبب 
القصور الملحوظ في دراسات المعالجة الآلية لمنظومة الكتابة باللغة العربية. وعلى الجانب الآخر نجد 
أن مشكلات تحويل الكتابة الصينية بشقيها المطبوع واليدوي إلى مكافئ إلكتروني قد تم حلها بشكل 
كامل من قبل العلماء الصينيين بأنفسهم مع بداياته القرن الحادي والعشرين؛ على الرغم من الصعوبات 
الهائلة التي اعترضتهم بسبب طبيعة اللغة الصينية التي تعتمد على الرموزء الأمر الذي أل اللغفة 
الصينية للدخول إلى مستويات عصر المعلوماتية بكفاءة غير مسبوقة. (المترجم) 
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الكتب المراد تسجيل محتوياتها في الذخيرة اللغوية. على سبيل المثال يباع 
في الأسواق الصينية حاليًا برمجية تَتبع تلك التقنية في إدخال النصوص 
المكتوبة بالحروف المطبعية إلى الحاسب وتحويلها إلى نسخة رقمية. وقد تم 
تطوير هذه البرمجية بمعرفة قسم علوم الحاسب وتقنياته بجامعة تشين خوا 
الصينية. ولكن ينبغي الانتباه إلى أن استخدام هذا الأسلوب في تمييز 
النصوص المطبوعة لا يخلو من بعض الأخطاءء ويحتاج الأمر إلى إجراء 
تصويبات يدوية لتصحيح تلك الأخطاء التي تقع من البرمجية في أثناء عملية 
.تمييز النتصوص وإدخالها إلى وسائط التخزين الإلكترونية داخل الحاسب. 

ب) إدخال النصوص إلى الحاسب يدويًا عن طريق لوحة المفاتيج 

يتم اللجوء إلى استخدام هذا الأسلوب مع أنواع النصوص التي لا يمكن 
استخدام أسلوب التمييز الضوئي لها. وهذا النوع من النصوص يشمل 
نصوص الفاكسنات» والمذكرات. الشخصيةء والتسجيلات الصوتية وغير ذلك. 
ففي بعض الأحيان يكؤن استخدام أسلوب التمييز الضوئي للنصوص غير 
فعال بالدرجة الكافية؛ حيث يحتاج إلى وقت كبير لإجراء تصويبات يدوية 
على النسخة التي تم تمييزهاء لدرجة أن يكون من الأفضل الاعتماد على 
(gd Yat‏ كقاءة:عالية فن كتاية النمتوص ينوا عن الحاسن: لتعويل هذا 
النوع من النصوص إلى نسخ رقمية. في البدايات الأولى لإنشاء الذخائر 
اللغوية باللغة الصينية» كان المتخصصون يلجئون إلى مثل هذا الأسلوب في 
العمل؛ ففي بداية ثمانينيات القرن العشرين؛ قام قسم علوم الحاسب بجامعة 
شان شي بتكليف من اللجنة القومية للغة الصينية بعمل دراسة إحصائية عن 
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معدل تكرار الرموز داخل اللغة الصينية عن طريق بناء ذخيرة لغوية 
باستخدام هذا الأسلوب251؛ حيث تم تكليف بعض الأشخاص المهرة بكتابة 
محتويات جريدة الشعب .اليومية خلال شهر وتحويلها إلى نسخة إلكترونيةء 
وبعد ذلك تم استخدام الحاسب في إنهاء الأعمال الخاصة بإحصاء معدل 
تكرار الرموز داخل تلك الذخيرة. 
"١‏ استخدام النصوص الرقمية الموجودة بالفعل 

أصبح من الشائع الآن توافر نسخ إلكترونية من الجرائد والمجلات 
والكتب وغير ذلك من المواد المطبوعة» ويُعتبّر اللجوء إلى مثل هذه 
النصوص الوسيلة المباشرة لبناء الذخائر اللغوية» وفي تلك الحالة ينحصر 
عمل مصممي الذخائر على القيام بالتهيئة اللازمة لهذه النصوص؛ حيث 
يقومون بتحويلها إلى النمط الرقمي المناسب لبنية النصوص داخل الذخيرة 
اللغوية بما يُمَكن من التعامل معها فيما بعد. 

وفى الحقيقة أن عددًا كبيرًا من مشروعات بناء الذخائر اللغوية يتم من 
خلال الجمع بين الأساليب السابقة في إدخال النصوص إلى ذاكرة الحاسب 
وتحويلها إلى نسخة رقمية؛ 0 
أنو اع النصوص المتاحة» التي تَعْتبّر المادة الخام لبناء الذخيرة اللغوية. فعلى 
سبيل المثال» نجد أن النصوص a‏ البتد والنضوض المتسكلة 
صوتيًا يناسبها استخدام لوحة المفاتيح لتحويلها إلى نصوص إلكترونية. وعلى 
العكس من cell‏ نجد أن العديد من نسخ الجرائد والمجلات أصبحت تتوافر 
في شكل إلكترونيء أما الكتب المطبوعة بالأسلوب التقليدي فيْفضّل استخدام 
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برنامج مسح ضوئي ذي كفاءة عالية كوسيلة سريعة وفعالة لتحويل نصوص 
تلك الكتب إلى المكافئ الزقمي لها. 
ثانيًا: تصميم الذخيرة اللغوية 

مرحلة تصميم الذخيرة اللغوية تشمل تحديد حجمهاء ونطاق النصوص 
الكلي للذخيرة» وبنية التصنيفات التي تندرج تحتها تلك النصوص»ء التي CSS‏ 
من البحث داخل الذخيرة» وغير ذلك من الموضوعات التي تمس عملية جمع 
النصوص. ويقدم المرجع رقم من قائمة المراجع وصفا دقيقا لما يتعلق 
بتصميم الذخائر اللغوية» وسوف نقدم فيما يلي شرحا مبسطا لبعض 
-١‏ توزيع المادة اللغوية داخل الذخيرة 

من ناحية الجوهرء تُعتَبَر الذخيرة اللغوية كيانا يضم في داخله جميع 
أنواع النصوص. ولذلك فإن مسألة اختيار أنواع النصوص التي يتم التعامل 
معها من العناصر التي لها أكبر الأثر في كفاءة الذخيرة اللغوية. وسوف 
نتحدث فيما يلي عن بعض النقاط التي ينبغي أن يكون لها الأولوية في 
التفكير عند بناء الذخائر اللغوية: 

|( المستويان الشفهي والتحريري للغة 

عند بناء الذخيرة اللغوية ينبغي أن نُحَدّد سابقًا ما إذا كانت ذخيرة 
للنصوص التحريرية أم للنصوص الثفهية» أم أنها تجمع بين النوعين. 
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والجدير بالذكر أن هناك العديد من الذخائر اللغوية لا تضم في داخلها إلا 
نماذج لنصوص تحريرية. وهذا من شأنه أن يتسبب في كون الذخيرة غير 
معبرة عن اللغة ولا تعكس الواقع العملي للاستخدام اللغوي؛ حيث يعتقد 
العديد من علماء اللغة أن اللغة الشفهية أكثر قدرة على التوجيه والإرشاد في 
عمل الدراسات الأساسية عن التكوين اللغويء وأنه لا يوجد أي شكل من 
النصوص التحريرية يمكن أن يلعب هذا الدور بصورة كاملة. 

إلا أن عمليات جمع النصوص الشفهية أصعب بكثير من جمنع 
النصوص التحريرية. وعلى الرغم من عدم صعوبة جمع بعض أشكال اللغة 
الشفهية مثل سيناريوهات السينما ونصوص المسرح وسجلات المؤتمرات 
ومرافعات القضايا داخل peA‏ والنشرات التليفزيونية» فإن اللغة التي تمثلها 
هذه الأنماط اللغوية قد C5‏ عليها بعض التعديلات؛ ومن المؤكد أننا سوف 
نعثر في متنها. على بعض آثار المعالجة الاصطناعية؛ ولذلك لا يمكن لهذه 
md gagan‏ عن الروح اللغوية التي يتسم بها الحوار الطبيعي. وغالبًا 
ما نطلق على هذا النوع من اللغة الشفهية مصطلح اللغة الشفهية القياسية. 

عند بناء الذخائر اللغوية الصينية تكون النسبة الأكبر هي النصوص 
التحريرية؛ مثل الجرائد والكتب وغير ذلك. وتقل نسبة المكوّن الشفهي داخل 
الذخائر الصينية وبخاصة ذلك الجزء المعبر عن الفوارق الطبيعية بين الأشخاص. 

ب) المستوى الرسمي والمستوى الأدبي من اللغة 

المادة اللغوية يمكن اختيارها من بين العديد من الأشكال اللغويةء فقد 
تكون تلك المادة في شكل رسمي أو غير رسميء أو قد تكون لغة أدبية أو 
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لغة عادية. فاللغة الرسمية يَسْهّْل الحصول عليها مقارنة باللغة غير الرسمية. 
أما اللغة الأدبية فِيَسْهُل رصدها مقارنة باللغة العاديةء أما الرسائل الكتابية 
واليوميات القصيرة غير الرسمية التي يَعْقلُها الناس فتَعتَبّر الوجه الحقيقي 
الذي يُمَتل الاستخدام اللغوي في إطاره الأشمل. وبالمثل فلا توجد حاجة لأن 
تحتوي الذخيرة اللغوية جميع الأعمال الأدبية المعاصرة؛ حيث إن نسبة قليلة 
'منها تفي بالغرض. 

ج) مدى مرجعية اللغة 

الوظيفة الأساسية للذخيرة اللغوية هي إعطاء الإمكانية للإبحار داخل 
اللغة لاكتشاف جوهرها والعناصر القياسية المعبرة عنها. فلو كانت غالبية 
النصوص في الذخيرة تم اختيارها من أعمال أديب واحدء فمن المؤكد أن تلك 
الذخيرة سوف تتمحور بصورة كبيرة حول التعبير عن الخصائص الإبداعية 
لأسلوب هذا الكاتب» وبذلك تفقد قيمتها في إجراء البحوث اللغوية المعبرة 
عن الخصائص العامة للغة. 

وعلى المنوال نفسه نجد أن كل كاتب من كاب الجرائد والمجلات له 
أسلوب مختلف في الكتابة» ومن هنا فإن جمع أكبر قدر من النصوص على 
مستوى جميع التخصصات من الأمور المفيدة جدًا للبحث اللغوي. وإذا أردنا 
أن نجعل الذخيرة اللغوية أكثر قربًا من واقع اللغة فينبغي لنا أن نضم في 
داخلها أكبر قدر من أعمال الكُتّاب في مختلف التخصصات والمجالات. 

د) الفترة الزمنية للنصوص 

غالبية الذخائر اللغوية تسعى إلى تغطية فترة زمنية محددة» وبما يجعل 
المادة اللغوية السنَجُلَةَ داخل الذخيرة اللغوية تَعيّر عن الواقع اللغوي للغة في 
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We ek وهذا النوع من الذخائر‎ aoe 
ee re 


التي تطرأ على اللغة من ناحية المفردات والبناء الهيكلي لها بصورة 
تاريخية؛ وذلك عن طريق جمع عدد من الأعمال في فترات تاريخية مختلفة. 
"- نطاق المادة اللغوية 

عند تحديد نطاق المادة اللغوية يكون هناف حاجة إلى التفكير في 


العناصر التالية: 
أ) حجم الذخيرة اللغوية 


هذه النقطة من أهم القضايا التي يهتم بها مصممو الذخائر اللغوية في 
بداية العمل في إنشاء أي ذخيرة. ففي الفترة الأولى من تاريخ البحوث 
المتعلقة بالذخائر اللغوية لم تكن هناك وسيلة لبناء النخائر اللغوية إلا عن 
طريق التسجيل اليدوي للمادة اللغوية؛ حيث كان من الصعب وجود مكافئ 
رقمي للنصوص اللغوية. ولذلك كان حجم الذخائر آنذاك صغيرًا إلى Si‏ 
بعيد. وتحت تأثير تلك الظروفء كان من الواجب توخي الدقة عند تصميم 
مخطط توزيع المادة اللغوية حتى تكون الذخيرة اللغوية معبرة عن اللغة 
بصورة شاملة. وإذا نظرنا إلى الأمر نظرة بعيدة المدى يمكننا التنبؤ بأن 
الذخائر اللغوية سوف يتأثر حجمها تبعًا لتطور تقنيات الحاسب. وهذا ما 
يخبرنا به قانون زييف من أن نسبة توزيع الكلمات المتكررة داخل الذخيرة 
اللغوية غالبا ما تتناقص بصورة كبيرة تبعًا لتناقص عدد مرات تكرار تلك 


الكلمات داخل النصوصء على سبيل المثال؛ تلك الدراسة التى تمت على 
اللغة الإنجليزية التي تشير إلى أن ‘the’ Las‏ التي edad axe tel ci‏ 
التكرار داخل اللغة الإنجليزيةء جاء عدد مرات تكرارها ضعف عدد مرات 
تكرار كلمتي ۴ه and"‏ الثانية من حيث التكرار» 
وبعد ذلك يتناقص عدد مرات تكرار الكلمات بصورة سريعة إلى أن نصل 
إلى كلمة ٠ط‏ التي تحتل المركز التاسع عشر من حيث الكلمات الأكثر 
تكرارًا في اللغة الإنجليزية» فنجد أن نسبة تكرار هذه الكلمة يمثل %٠١‏ فقط 
من نسبة تكرار LÍ ethe" Aa‏ الكلمة التي تحتل المركز ۸٤‏ وهي كلمة 
"0س" فتشغل %٥‏ فقط من نسبة تكرار 4418 the”‏ 

ولك 1 رفا لن تن ج الان وة ف he‏ راء 
لمفردات لغة ماء وأردنا أن تغطي دراستنا أكبر قدر من مفردات تلك aM‏ 
فعلينا توسيع من حجم الذكيرة كدر اسنتطا عار 

ب) حجم العينات اللغوية 

وأخيراء ما الحجم الذي ينبغي أن تكون عليه كل عينة لغوية؟ هذا هو 
السؤال الذي يتكرر دائمًا عند مصممي الذخائر اللغوية» ولكل منهم رأيه 
الخاص» على سبيل المثالء نجد أن ذخيرة لوب 108 لا تقل كل عينة فيها 
عن ٠٠٠١‏ كلمةء وعلى الرغم من أن هذه الطريقة قَلّدَها العديد من العاملين 
٠‏ في بناء الذخائر اللغويةء فإن هناك عدذا من العلماء وجهوانقدا لهذه 
الطريقة؛ حيث يعتقدون أن النصوص بهذا الحجم لا تكفي للتعبيير عن 
الخصائص اللغوية للنص الأصلي. على سبيل المثال رسائل الأخبار القصيرة 
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(مثل الجمل الإخبارية) نجد أن أسلوبها يختلف عن أسلوب كتابة التقارير 
الإخبارية؛ ولكن نظر! إلى أن حجم النصوص التي تمثل رسائل قصيرة لا 
يكفي لأن يكون في حدود ٠٠٠١‏ كلمة» فلا يمكن أن تضم الذخيرة اللغوية 
هذا النؤع من النصوص؛ ومن ثم لا يُتاح للذخيرة اللغوية أن تغطي مثل هذا 
النوع من النصوص الذي يقدم لنا الخصائص اللغوية للرسائل الإخبارية 
القصيرة. 

وعلى الجانب الآخر نجد أن اختيار عينة في حدود ٠٠١‏ كلمة 
للتعبير عن الخصائص اللغوية لرواية طويلة لا يمكن أن تفي بهذا الغرض؛ 
ولذلك فمن أجل أن نعوض ذلك النقص ونتلافى هذا العيب علينا اختيار 
النص بأكمله لكي يدخل في متن الذخيرة اللغوية حتى يمكن تجنب انحصار 
العينات في بعض فقرات النص الأصلي. 

ولذلك؛ فعند إتاحة الظروف يكون من الأفضل اختيار النصوص 
بأكملها. وهذه الطريقة لا يُخشى معها الوقوع في مشكلة التفاوت بين أساليب 
الأجزاء المختلفة للنص. | 

إن اختيار النصوص بأكملها أفضل من الاكتفاء باختيار عينات منها؛ 
لأن النص الكامل من شأنه أن يُقدّم معلومات شاملة تساعد على البحث 
اللغوي» ومع هذه الطريقة لا يكون داع هناك للقلق من عدم الالتزام ALAN‏ 
المتَبَعَةَ في بناء الذخيرة اللغوية. وأهم ما في الأمر هو ضمان تصميم برنامج 
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جيد لإدارة البيانات داخل الذخيرة اللغوية بما يتيح الفرصة أمام علماء اللغة 
للحصول على ما يبغون التوصل إليه عند الحاجة. 


۳- تصميم برنامج التخزين وسجلات الحفظ 


إن الهدف من إنشاء ذخيرة لغوية هو استغلال الحقائق اللغوية 
واستخدامها في إجراء البحث اللغوي. ولذلك J‏ الالتزام بمعايير الدقة في 
تصميم وسيلة تخزين المادة اللغوية وإشارات ترميزها من الأعمال المهممة 
Éa‏ خلال عملية إنشاء الذخائر اللغوية. فلو أخذنا اللغة الإنجليزية مثال» نجد 
أن تخزين ذخيرة لغوية سعتها مليون كلمة تحتاج إلى مساحة تخزين تتراوح 
بين 4 و١٠‏ ميجا بايت. وإذا أضفنا علامات الترميز النحوية لمحتويات هذه 
الذخيرة سنحتاج من " إلى © ميجا بايت إضافيةء أما إذا أضفنا رموز 
التحليل النحوي فسوف نحتاج إلى ١‏ ميجا بايت أخرى. إن عملية تخزين 
المادة اللغوية في متن الذخائر اللغوية لم تَعْد مشكلة؛ نظرً! إلى تطور تقنيات 
الحاسب الآلي» فعلى سبيل المثال يمكننا تخزين معلومات تصل إلى مائة 
ميجا بايت على أسطوانة ليزر واحدة. إن الذخيرة اللغوية لا تكتسب قيمتها 
إلا من المادة اللغوية المُخْزّنة والمعلومات المتعلقة بها. ولذلك فعند بناء 
ذخيرة لغوية علينا أن نبدأ بتصميم أسلوب للاستعلام داخل الذخيرة بشكل 
منظومي» يضمن لنا ارتباط النصوص التحريرية داخل الذخيرة بمكافئها 
الأصلي سواء كان صونا أو نصنًا. وبالإضافة إلى ذلك ينبغي حفظ فهارس 
الملفات' وجميع الملفات في نسخ إضافية غير تلك التي تَجْري عليها عمليات 
التحليل والدراسة. 

ومن ناحية أخرى نجد أننا نلجأ إلى مصادر مختلفة للحصول على 
المادة اللغويةء فلو اتبعنا أساليب مختلفة لتكويد تلك المواد اللغوية وترميزهاء 
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فسوف يؤدي ذلك إلى حدوث خلل كبير في إدارة الحاسب وسيطرته على 
تلك المواد اللغوية. ولكي نصل إلى أسلوب موحّد في إدارة تلك المواد 
اللغوية نحتاج إلى استغلال ملامح النصوص واستخدامها كعلامات للترميز» 
وأكثر تلك الملامح التي نلجأ إليها هئ علامات الترقيم وأرقام السطور داخل 
النص والعلامات الخاصة ببدايات الأبواب والفصول والفقرات في النصء 
وغير ذلك. وإذا لم تكن تلك العلامات مُوَحَّدَة داخل الذخيرة اللغوية فلن 
يتمكن الحاسب من التوصل إلى معلومات ذات فائدة فيما يتعلق ببنية 
النصوص داخل الذخيرة؛ ومن Bb‏ لا يمكنه تمييز النصوص وأكوادها 
المختلفة» الأمر الذي ينشأ عنه مخرجات وبيانات خاطئة. 

في تمانينيات القرن العشرين توصل العاملون في مجال النشر إلى 
معيار قياسي لتكويد النصوص إلكترونيًا من أجل تجنب وجود تكرار غير 
مرغوب فيه في أثناء عمليات إدخال النصوصء ونتيجة لوجود لغة 
(The Standard SGML pul ha sl Lee Sf Gh Vo‏ 
Generalized Markup Language)‏ « أصبح المتخصصون في هذا المجال 
يستخدمونها في عمل تكويد النصوص الإلكترونية. 


)١(‏ يُستخدم مفهوم لغة العلامات (Markup Language)‏ 4 مجال تكنولوجيا 
المعلومات للإشارة إلى ثنائيات من الكلمات والرموز توضع بينها المكونات النصية 
لصفحة الويب» بالإضافة إلى مجموعة من العلامات تؤدي إلى عرض مكونات 
الصفحة وفقا لمواصفات معينةء مثل نوع الخط وحجمه ولونه؛ وهل تعرّض البيانات 
في شكل نصي al‏ في شكل جدولي» وشكل محاذاة الأسطرء وما إلى ذلك من 
مواصفات تحرير النصوص. وتنتمي لغ — XML —lg «(HTML —Iy « SGML‏ 
إلى العائلة اللغوية نفسسهاء وتسستخدم بصورة أساسية في تسصميم صفحات 
الويب.(المترجم) . 
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وبقي أن نشير إلى أنه قبل إجراء إعداد أنماط النصوص وتوحيدها بعد 
تجميعها داخل الذخائر اللغوية علينا أن نحصل على حقوق استغلال تلك 
النصوص من أصحابها الأصليين حتى لا تواجهنا مشكلة حقوق التأليف والنشر. 
4 - حماية الذخيرة اللغوية 

بعد أن نَبْنى الذخيرة اللغوية دائمًا ما نكتشف بها العديد من الأخطاء 
التي تحتاج إلى تصحيح» أو حتى إجراء تحسينات على بنيتها؛ ولذلك تكون 
هناك حاجة إلى إجراء صيانة يومية للذخيرة اللغوية وتطوير دائم لها. وبهذه 
الطريقة» يمكننا التوافق مع مستجدات الحاسب الآلي من حيث العتاد 
والبرمجيات» ومن حيث احتياجات المستخدم أيضاء هذا بالإضافة إلى أن 
تزايد الاهتمام بأنظمة فهرسة الذخائر اللغوية وأدوات تحليلها ومعالجتهاء قد 
أدى إلى وجود حاجة متزايدة لحماية الذخائر اللغوية. 
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الفصل الثالتٌ 
أنواع الذخائر اللغوية 


إن تنوع أشكال الذخائر اللغوية حقيقة لا يستطيع أحد إنكارها؛ ولكن لم 
يتوصل أحد حتى الآن إلى تسمية موحدة لكل نوع من هذه الأنواع. وقد سبق 
أن وضع دونالد ووكر Gila oall "(Donald Walker)‏ الأربعة التالية 
لتسمية الأنواع المختلفة من الذخائر اللغويةء إلا أن هذه القضية ما زالت 
مثيرة لجدل لم puch‏ حتى الآن. 
(Heterogeneous) bisa ةريخiلا ١‏ 


هذه أبسط وسيلة لجمع المادة اللغوية داخل ذخيرة لغوية؛ حيث يسعى 
المصممون قدر الإمكان إلى جمع كل ما يمكن جمعه من أنواع النصوص 
المختلفة» ولا يكون هناك أية قواعد سابقة فيما يتعلق باختيار المادة اللغوية» 
je,‏ ذخيرة أيه سي إل/ دي سي آي 401/9201 من الذخائر اللغوية التي 
تندرج تحت هذا النوع. وتتفق مع هذا النوع ذخيرة أو تي أيه 014 
للمستندات التابعة لجامعة أكسفوردء حيث جمّعت هذه الذخيرة بين أنواع 
مختلفة من المستندات دون أي تغيير في الشكل الأصلي للمستند. 


(Homogeneous) الذخيرة المتجانسة‎ Y 


وهي عكس النوع السابق؛ وتَعَتبّر ذخيرة تيبوتر «©04م18 التابعة 
للحكومة الأميركية خير مثال على هذا النوع من الذخائر؛ حيث جَمَعَت في 
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طياتها النصوص المتعلقة بالشئون العسكرية فقط مثل أعطال التجهيزات 
وتوقعات الأخطار وغير ذلك من الأمور المتعلقة بالشئون العسكرية. هذا 
وتعتبّر الذخائر اللغوية التي تصمم من أجل تخزين أعمال كاب معين من 
WA‏ 
۳- الذخيرة المنظومية (Systematic)‏ 

الغرض من إنشاء هذا النوع من الذخائر اللغوية ضمان جمع المادة 
اللغوية بما يُغطي إطارًا لغويًا واسعًا؛ بحيث تمثل الذخيرة اللغوية أكبر 
مساحة من اللغة. وتُعْتَبّر ذخيرة براون والذخيرة القومية الإنجليزية 8١€‏ 
من الذخائر التي تحترم هذه القاعدة في جمع المادة اللغوية. وعند بتاء هذا 
النوع من الذخائر اللغوية يتم الاهتمام بقضايا الثبات والتغير والمرجعية 
والتوازن» بالإضافة إلى القضايا المتعلقة بنطاق تغطية المادة اللغوية داخل 
الذخيرة. 
؛ - ذخيرة الاستخدام المتخصص (Specialized)‏ 

يُخْزن بتلك الذخيرة كل أنواع الذخائر المتخصصة: مثل ذخيرة العلوم 
الإنسانية بأميركا الشمالية وذخيرة لغة الأطفال 1145© التابعة لجامعة 
كارنيجي ميلو © «Carnegie Mellon University‏ 
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الفصل الرابع 
تعريف بالذخائر اللغوية خارج الصين 


wee‏ الأساسي من علم الذخائر اللغوية هو وضع تصور عام لجميع 

ثق والقوانين اللغوية في اللغة الطبيعية؛ وذلك عن طريق عمل دراسات ' 
واقعية واسعة النطاق على المواد اللغوية. وقد بدأ العالم الغربي في إنشاء 
الذخائر اللغوية مع بداية ستينيات القرن العشرين. وعلى مدى ثلاثين Like‏ 
تمكنت العديد من الحكومات والمؤسسات الاستثمارية والتجمعات العلمية على 
مستوى العالم من إنشاء أو السعي إلى إنشاء ذخائر لغوية على جميع 
الأشكال. وسوف نعَرف القارئ في هذا الفصل بأهم تلك الذخائر الغربية 
Tabu ad‏ 
أولاً: ذخيرة إس إي يو SEU‏ 

في عام ۹٥۹٠ء‏ أطلق عالم اللغة الإنجليزي راندولف كويرك 
Randolph Quirk‏ مشرو عا أسماه 'در اسة في استخدامات اللغة الإنجليزية" 
(The Survey of English Usage)‏ وقد اطق على هذا المشروع 
اختصارا اسم (SEU‏ حيث قام كويرك في إطار خطة محددة بجمع كمية 
كبيرة من المواد اللغوية في تخصصات مختلفة» بالإضافة إلى أنه استغل 
٠‏ الحاسب الآلي في تخزين المواد التي جِمَعَهها وتصنيفها. وقد كانت هذه هي 
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المرة الأولى في تاريخ الذخائر اللغوية التي يتم فيها اللجوء إلى حاسب آلي 
من النوع العملاق في بناء ذخيرة لغوية. وقد جَمَعت ذخيرة [5171 ما بين 


والتخصصضات: 


والجدول التالي يوضح نسبة تمثيل النصوص بأنواعها المختلفة داخل 


تلك الذخيرة. 


























































جدول (۱-۲): هيكل المواد اللغوية في ذخيرة SEU‏ 
أصول تحريرية a‏ 
يوع (45) | مواد غير مطبوعة (5") | مواد شفهية OA)‏ 
علوم إنسانية )1( | مسودات كتب )3( | نصوص مسرحية (i)‏ 
علوم طبيعية _ (") | أخبار (1) | خطب رسمية )"( | 
تعاب ) | مراسلات اجتماعية خاصة )٤(‏ | نشرات إخبارية كنا 
Po eal a Sale Ss desl ot‏ حوارات إخبارية ٤‏ 
جرائد إخبارية عادية )٤(‏ مراسلات اجتماعية عادية Aa )٤(‏ 0 
nal 0 201100‏ اجتماعية في شكل 
قان ۰ )9( ,= غير ETO‏ 2 
a‏ شكل مشاحنات Ho‏ 
نقد ٠‏ )0( | مذکرات | x‏ 
| قصص ونثر x dy‏ 
be (oaiit) dyal‏ 
eid‏ حوارات (Y£) Agile y Li‏ 
Wis‏ | )+1( 
خطب ارتجالية )٠١(‏ | حوارات خاصة مُعلنة )۰"( 
تعليقات رياضية (4) | مشاحنات مُعلنة 0 
حوارات تليفونية خاصة 00 
كريد É)‏ | مشاحنات تليفونية )¥\( 











102 


ويمكننا ملاحظة أن تلك الذخيرة تحتوي ٠٠١‏ نص تم توزيعها 
بالتساوي على كل من المستوى التحريري والمستوى الشفهي من اللغة. 
ويحتوي كل نصن خرالي SAAS ss Mead Jamas Lng ry‏ 
ll WIS 5,00 Jals‏ خر Cll san Ul gine cplatyy Aa Gale‏ 
المجتمع بمستوياته اللغوية المختلفة. وإذا نظرنا نظرة عامة إلى تاريخ تطور 
الذخائر اللغوية لوجدنا أن ذخيرة إس إي يو 5817 التي أنشأها كويرك تُعتَبْر 
عملا عظيمًا سواء من حيث وجهة النظر البحثية أو من حيث منهجية التنفيذ. 
وقد اعتبرت هذه الذخيرة اللغوية بمثابة فاتحة طريق جيدة أمام علم الذخائر 
اللغوية وقَدّمَت أفكارً! علمية جديدة في مجال البحث اللغوي. 


ثانيا: ذخيرة براون 

في ستينيات القرن العشرينء أنشأ كل من فرانسيز 5+5 وكوشيرا 
å Kucera‏ جامعة براون الأميركية أول ذخيرة قياسية على مستوى العالم 
تقوم بجمع العينات اللغوية طبقا لقواعد منظوميةء وهي ذخيرة براون اللغوية. 
وقد كان الغرض الأساسي من إنشاء تلك الذخيرة هو دراسة الإنجليزية 
الأميركية المعاصرة. ويصل حجم تلك الذخيرة إلى مليون كلمة. 

وقد تم جمع المادة اللغوية لهذه الذخيرة من النصوص العامة التي كتبها 
الأميركان في عام .١17١‏ وتغطي المادة اللغوية خمسة عشر موضوعا من 
خلال خمسمائة عينة. وكل عينة لا يقل عدد كلماتها عن ٠٠٠١‏ كلمة. وقد 
اعتمدت دار النشر التابعة لجامعة براون على الدراسات الإحصائية التي 
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أْجْرِيت على تلك الذخيرة في إصدار معجم عن معدل تكرار الكلمات في 
اللغة الإنجليزية'* وكان ذلك في عام .١157‏ وفي سبعينيات القرن 
«cy pil‏ صمم كل من (Greene) Ge‏ وروبين LiL! Gals (Rubin)‏ 
عليه اسم تاجيت (]12881) يُسْتَخْدَم في عمل ترميز لأنواع الكلمات داخل تلك 
الذخيرة البالغ عدد كلماتها مليون كلمة» واستخدما في ذلك عدد ۸١‏ علامة 
ترميز لتصنيف الكلمات» ووصل عدد القواعد التي لجئا إليها لتنفيذ تلك 
العملية حوالي 72٠١‏ قاعدة» ووصلت نسبة الدقة في تميز أنواع الكلمات إلى 


, BIIY yy 


١‏ توزيع المادة اللغوية داخل ذخيرة براون[30] 


تتوز ع المادة اللغوية في ذخيرة براون على ٠١‏ فة يرمز لها 
بالحروف من 18 - 4» من بينها الفئات من 3 - 4. تندرج تحت بند النصوص 
الإخبارية» أما الفئات من K-۸‏ فتندرج تحت بند الأعمال الخيالية الإبداعية» 
أما الأرقام الموجودة في كل فئة فتشير إلى عدد العينات في كل منها. 

4) الجرائد والمجلات: في مجال الأخبار. 
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8) الجرائد والمجلات: في مجال الاجتماعيات 
| جرائد يومية | مجلات أسبوعية 
تنبا اجتماعية | Ye‏ ۳ 
مراسلات القراء o‏ 























(C‏ الجرائد والمجلات: في مجال النقد 


(موضوعات النقد هي: المسرحيات» والكتب» والموسيقىء والرقص). 


(D‏ الديانات 
كتب ۷ | 
دور يات F‏ 5 
i ge‏ 


ع) المهارات والهوايات 
| كتب | y‏ 
CNE‏ | 34 


۴) الحكايات الشائعة 


| yy كتب‎ 
Ye دوريات‎ 


6( الأدب» والتراجمء والسير الذاتية 
كتب YA‏ 
دوريات YY‏ 


























aiu (H 
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1) كتب تعليمية وعلمية 
| العلوم الطبيعية | ١‏ 








السياسة والقانون والتربية 











الهندسة والتكنولوجيا 
(J‏ القصص العادية 






















































































فصص | Ve‏ 
قصص 3 فصيرة | 4 
] قصص | 9 y‏ 
قصص 3 قصيرة | £ 
ا) القصص الخيالية 
قصص قصيرة Y‏ 
1) قصص المغامرات والرحلات 
قصص ١5‏ 
قصص قصيرة ١‏ 
)N‏ القصص الرومانسية 
= ۳ 
قصص قصير Y ò‏ 
0) الفكاهة 
Y | ws |‏ 
| سرد | Y‏ 
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وبعد تحديد أنواع النتصوص وتفريعاتها الدقيقة وعدد العينات في كل 
نوح» 名‏ جمع تلك العينات وإدخالها إلى ذاكرة الحاسب. وفي البداية كان 
هناك التزام بالأعداد المقررة لكل فرع في اختيار النضوص؛ وبحيث لا يقل 
كل نص عن ٠‏ كلمةء مع مراعاة أن تنتهي كل عينة بجملة كاملة. كما 
يتم وضع رقم كودي لكل نص عبارة عن رمز التصنيف الذي ينتمي إليه 
النص مضافا إليه عدد مكون من رقمين.. 
۲ الإصدارات المختلفة لذخيرة براون 

بعد إنشاء ذخيرة براون تتابعت أعمال تطويرهاء وتم ذلك من خلال 
ستة إصدارات» وكان كل إصدار من هذه الإصدارت» يستهدف مجموعة من 
الباحثين في أغراض مختلفة» وسوف نتحدث عن تلك الإصدارات تفصيلاً 

1 

"A" الإصدار‎ (i 

كان هذا الإصدار هو الشكل الأول من الذخيرة اللغوية براون. وقد تم 
بناؤه في عام 21355 إلا أن ذلك الإصدار قد تأثر بإمكانات الحاسب آنذاك؛ 
بالإضافة إلى استخدام تقنيات معقدة لعمليات التكويد. 

ب) الإصدار "B"‏ 

وهو الإصدار الذي ظهر بعد el al‏ معالجة CA" haay! ui‏ 
وتمحورت تلك المعالجة حول حذف علامات الترقيم والكلمات الممشبّكة 
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Cus ‘(Stripped) ayaa) As .uill‏ إن هذه المعالجة مفيدة في عمل 
الدراسات الخاصة بالكلمات المفردة» هذا بالإضافة إلى أن هذه النسخة قد 
ates‏ السبيل أمام كل من فرانسيز وكوسيرا لعمل الإحصائية الخاصة بمعدل 
تكرار الكلمات في الإنجليزية الأميركية. 

ج) الإصدار "©": 

وهو الإصدار الذي يحتوي ترميز الأنواع النحوية للكلمات؛ وتم تنفيذ 
هذا الإصدار بناءً على الإصدار"8. وقد تم توحيد الإشارات المعبرة عن 
نوع الكلمات؛ واستخدم في ذلك عدد ۸١‏ علامة للترميز النحوي. 

د) الإصدار برجن الأول: 

هذا الإصدار والإصدار التالي له-قام بهما مركز الحاسب الآلي بجامعة 
برجن تحت إشراف العالم جوستين (305410): وقد احتفظ هذا الإاصدار 
بالحروف الكبيرة والحروف الصغيرة في الإنجليزية وترميز علامات الترقيم» 
مع الاستعانة بأقل قدر من الأكوادء بالإضافة إلى الاحتفاظ بالمعلومات 
التحريرية للنصوص. 

ه) الإصدار برجن الثاني: 

الاختلاف الوحيد بين هذا الإصدار والإصدار السابق له هو تقليل قدر 
المعلومات التحريرية الخاصة بالنصوص؛ بالإضافة إلى وجود نظام متكامل 
يكن من فهرسة الكلمات التي تحتويها الذخيرة. 
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3( الإصدار براون مارك: 

i t 
أنهي هذا الإصدار من خلال جامعة ستانفورد» وكان الغرض منه‎ 
تمكين ذخيرة براون من التوافق مع برمجيتين شائعتين للاستعلام» وإحدى‎ 
هاتين البرمجيتين تتيح إمكانية الاستعلام داخل الذخيرة عن كلمات محددة أو‎ 
جيل كائلة طعا سياف معنن أما الأخرى فتتيح إمكانية الاستعلام عن‎ 

النصوص التي تندرج تحت سياق معين طبقا لبعض الكلمات المفتاحية. 
وإذا نظرنا إلى ذخيرة براون مقارنة بباقي الذخائر اللغوية لوجدنا أنها 
اتبعت تصميمًا في غاية الدقة من حيث العينات وأسلوب جمع المادة اللغوية. 


ثالنًا: ذخيرة لوب 

Gale‏ اقتراح إنشاء هذه الذخيرة اللغوية هو العالم جيفري ليتش 
(ye (Geoffrey Leech)‏ جامعة لانكاسترء. وكان ذلك في سبعينيات القفرن 
العشرين؛ ولكنها في النهاية نفدت بإشراف العالم ستيج جوهانسون عنا؟) 
Johansson)‏ من جامعة أو سلو بالنرويج» وفي النهاية تم تحميلها باسم ذخيرة 
لوب 108 في مركز الحاسب والعلوم الإنسانية التابع لجامعة برجن „BU‏ 

وهذه الذخيرة بمثابة توأم لذخيرة براون» وكان الغرض من إنشائها 
دراسة اللغة الإنجليزية. وقد جاء تقسيم المواد داخل ذخيرة لوب مطابقا تمامًا 
لتقسيمها في ذخيرة براون حتى يتسنى عمل الدراسات المقارنة بين النموذج 
الأميركي والبريطاني في اللغة الإنجليزيةا*' ويوضح الجدول التالي توزيع 
المواد اللغوية داخل هاتين الذخيرتين. 
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جدول (5-75): الهيكل الداخلي لذخيرتي براون ولوب 







































































شكل المادة اللغوية 
الجرائد والمجلات: في مجال 
| التقارير الإخبارية 
n‏ الجرائد والمجلات: في مجال 
الااجتماعيات | 
€ | الجرائد والمجلات: فى VV GN fon‏ ۱۷ 
D |‏ الديانات roy w‏ 
| المهار الك و اليو YA | Cd‏ 
F |‏ | حكايات شائعة Û] A‏ 
| € الأدب | vw | ve‏ 
H|)‏ | متفرقات P:‏ | ]| 
J‏ التعليم | A | A‏ 
n | Qis yaa | K‏ | 4‘ 
te |‏ | اک واا xs ٤‏ | 
M‏ | قصصض كيال كلمي ` ` 
yale | N |‏ اك | v4 v4‏ | 
P‏ اش رو واش ۲۹ ‘a‏ 
T‏ = فكاهة a i‏ | 4 | 
sw C aan | le‏ | 





مكوانة مرك ۳ علامة. واستخدموا أسلوبًا خاصًا لترميز أنواع الكلمات 
je iii‏ ذلك المستخدم في ذخيرة براون لتمييز الأنواع النحوية للكلمات 
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داخل 5:83 ‘LOB‏ حيث طوروا برمجية لترميز أنواع الكلمات أطلقوا عليها 
اسم تاجيت (788810). وقد اعتمد هذا النظام على الكلمات التي تم ترميزها 
من حيث النوع النحوي للكلمة في ذخيرة براون؛ وعن طريق قوانين 
الإخصاء تمكنت البرمجية من وضع مصفوفة تَعَبّر عن احتمالات التغير في 
ee‏ ا E‏ ا النص» وعن 


الكلمات داخل ذخيرة لوب pagel LOB‏ أكثر ؛ ذكاء. وقد تمكن فريق العمل 
من خلال تلك البرمجية من الارتقاء بنسبة الدقة في تحديد أنواع الكلمات 
داخل الذخيرة البالغ عدد كلماتها مليون كلمة إلى نسبة 90947-57. وتُعْتَر 
هذه الطريقة في التعامل مع الذخائر اللغوية إنجازً! عظيمًا تم التوصل إليه في 
حقل معالجة اللغات الطبيعية. ۰ 

كما اتضح للعلماء العاملين في مجال معالجة المعلومات اللغوية من 
خلال تلك الحقيقة العلمية مدى محدودية وسائل الذكاء الاصطناعيء التي 
تعتمد a‏ الحقائق المجردة مقارنة بتلك القوة الهائلة والأقق البغيد الذي 
تطرحه الأنظمة التي تعتمد على الإحصاء والاستقراء في التوصل إلى سبر 
أغوار الحقائق اللغوية داخل النص. ولعلنا لا نبالغ عندما نقول: إن برنامج 
(Taggit)‏ 5 فتح مجالا وأَفُقَا واسعًا في حقل معالجة اللغات الطبيعية» الأمر 
الذي أعطى إشارة الانطلاق لتطوير منهجيات التعامل مع الذخائر اللغوية 
خلال تسعينيات القرن العشرين. واعتمادًا على الأساس الذي قدمته ذخيرة 
لوب LOB‏ في ترميز أنواع الكلمات نحويًاء أعلن كسل من جوهانسون 
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(Hofland) 2145 5 (Johansson)‏ النتيجة الإحصائية لمعدل تكرار الكلمات 
وأنواعها النحوية في اللغة الإنجليزية عام Ce Bagh ld LS PV AAG‏ 
الباحثين بجامعتي لانكاستر وليدز بعمل ترميز للقواعد النحوية داخل ذخيرة 
لوب؛ تمهيدا لاستخدام ذلك الترميز في عمل تحليل نحوي آلي قائم على 
نماذج علم الاحتمالات. 


رابعا: ذخيرة إل إل سي 11٣‏ الشفهية 

كان إنشاء الذخائر اللغوية الثلاث السابقة بمثابة وضع نهاية لعسصر 
إهدار طاقة الإنسان ووقته في جمع المادة اللغوية» وإرساء لمكانة علم 
الذخائر اللغوية ليحتل موقعه المناسب في الدراسات اللغوية. إن ظهور 
الذخائر اللغوية الثلاث قد مَكن العلماء من تطوير أسلوب جمع المواد اللغوية 
من مستوى الكلمة والعبارة والجملة البسيطة كما كان يحدث في المراحل 
الأولى من تاريخ جمع المواد اللغوية بالطرق اليدوية لينتقل مباشرة إلى 
مستوى جمع النصوص اللغوية الكاملة» كما ساهم أيضنًا في تطوير نطاق 
المادة التي يتم جمعها من إطار مُحَدّد إلى أُطر وأفرع اللغة المختلفة. إلا أن 
تلك الذخائر الثلاث كانت تركز على المستوى التحريري من اللغة وخاصة 
الذخيرتين الأخيرتينء ولم يكن هناك مجال لجمع مواد لغوية شفهية. ولذلك 
بدأ العمل في إنشاء ذخيرة للنصوص الشفهية عام .٠۹۷٥‏ 

في ستينيات القرن العشرين؛ أجرى العالم الشهير كويرك من جامعة 
لندن دراسة عن أساليب استخدام اللغة الإنجليزية سجل خلالها مواد شفهية 


وصل حجمها إلى ما يزيد عن ألفي ساعة من حوارات ومواد إذاعية وغير 
ذلك؛ وبعد ذلك حول تلك المادة اللغوية الشفهية إلى صورة ورقية. وفيما بعد 
تولى العالم.سمقارتفيك (578:4511) من جافعة لوند السويسرية مهمة 
تحويل تلك المادة إلى نسخة رقمية يتم التعامل معها من خلال الحاسب الآلي. 
وفي الوقت ذاته أطلق العلماء مشروع ملخص اللغة الإنجليزية الشفهية The‏ 
gall Survey of Spoken English‏ أطلق عليه اختصارًا اسم إس إس إي 
٤‏ ] والذي يُعْتَيّر في حقيقة الأمر توأم مشروع إس إي يو 5817 الذي 
أشرنا إليه سابقًا. وكان الغرض من هذا المشروع استغلال قدرات الحاسب 
العالية في معالجة البيانات آليّا للتوصل إلى المعلومات الأولية عن اللغة 
الشفهية الإنجليزية من متن تلك الذخيرة. وقد شملت عملية ترميز الذخيرة 
إجراء تحليل للإيقاع ووحدات التنغيم» وأصوات التوكيد والأساليب المختلفة 
للغة الشفهية؛ الأمر الذي اعتبر مادة أولية ذات قيمة عالية لدراسة اللغة 
الإنجليزية الشفهية. وقد اكتمل العمل في مشروع ذخيرة إس إس إي SSE‏ 
عام .138١‏ وقد أُطلق على هذه الذخيرة الشفهية اسم إل إل سي LLC‏ 989 
اختصار ل ?一 全 pu London-Lund Corpus of Spoken English‏ 
لندن - لوند للغة الإنجليزية الشفهية. 

وقد بدأت ذخيرة 1.1.0 بعدد من النصوص يصل إلى 47 نصنًا 
ويحتوي كل نص حوالي ٠٠٠١٠‏ رمز. ولتسهيل عملية البحث داخل تلك 
الذخيرة قام المصممون بعمل تصنيف دقيق وفهرسة جيدة لمحتوياتهاء وقد 
قسنت النصوص إلى خمسة تصنيفات رئيسة؛ هي: 
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-١‏ حوارات وجها لوجه. 

؟- حوارات تليفونية. 

۳ مناقشات» وتحقيقات صحفية» ومجادلات. 

5 - مناقشات جماهيرية حيةء ومناظرات» ومحاضرات دون إعداد سابق. 

Sins a ta CI polos —0‏ سابقا. 

وبعد ذلك» تم عمل تصنيفات أكثر دقة في إطار تلك التصنيفات العامةء 
ثم أعطي لكل صنف من هذه النصوص رقم مضاقا إليه الحرف ؟. 
وبالإضافة إلى ما قام به سؤارتقيك (5:8:741) من عمل ترميز للهجات 
والإيقاع داخل مقاطع الكلام في الذخيرة؛ فقد وضع تصميما دقيقا لحزمة من 
برمجيات الفهرسة أُطلق عليها اسم "الكلمات المفتاحية داخل السياق Key‏ 
"Word in Context‏ وَيُطْلَق عليها اختصارًا ©1981. وهذه الحزمة البرمجية 
لا نهل عمليات فهرسة النصوص فحسب» بل يمكن الاستعانة بها في البحث 
عن مقاطع ذات خصائص لغوية معينة داخل النصوصء لدرجة أنه أصبح 
هن الممكن التغرفنا على عدد PP Lge gy CHS yy gb Cl ye‏ 
وعلاقتها الاقترانية مع غيرها من الكلمات داخل أي نص. وهذا المستوى من 
الفهرسة لا يتطلب عمل تكويد لكل فقرة من النص فقطء وإنما يصل الأمر 
二‏ 
النص. وفي أثناء عملية ترميز الأنواع النحوية للكلمات تكون البداية بكتابة 
حرف إنجليزي كبير شير إلى النوع النحوي للكلمةء وبعد ذلك يضاف إلى 
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هذا الحرف علامة أخرى للتعبير عن أشكال التغير المختلفة التي تحدث 
للكلمة. على سبيل المثال» يضاف إلى الحرف N‏ العدد ۲ في صورة (N42)‏ 
للتعبير عن صيغة المثنى من الاسم» وتستخدم مثلاً الصيغة spell (Nz)‏ 
عن الحالات الإعرابية المختلفة التي تلحق بالاسم وغير ذلك. وبالإضافة إلى 
ذلك» ومن أجل عمل دراسات أكثر دقة على قواعد اللغة الشفهيةء قاموا 
بتصميم مجموعة من العلامات النحوية للتعرف على وحدات التحليل النحوي. 
فضلاً عن قيامهم بتصميم برنامج لتحليل التعبيرات اللغوية. وقد وصل حجم 
ذخيرة إل إل سي 11٤٥‏ اللغوية في النهاية إلى نصف مليون كلمة. 
خامسا: ذخيرة كوبويلد 0110© 

الاسم الكامل 3 9:98 Collins Bermignhan ) g& (Cobuild) ab‏ 
«(University International Language Database‏ وهي ذخيرة للغفة 
الإنجليزية تم تأسيسها بالتعاون بين دار نشر جامعة كولينز الإنجليزية 
وجامعة برمنجهان. ويتمتل الغرض من بناء: هذه الذخيرة اللغوية في إجراع ٠‏ 
دراسات معجمية على أساس المواد اللغوية المخزنة بداخلها. وقد تم إنشاء 
ذخيرة كوبويلد بدعم وتشجيع من العالم جون سنكلير is—4 (John Sinclair)‏ 
ثمانينيات القرن العشرين: وعلى أساس ذلك ابتكر حزمة من الأدوات 
البرمجية وقام بتطويرها لإدارة المادة اللغوية المخزنة بها وتحليلهاء واستطاع 
أن يُكوّن فريقًا من الخبراء المتخصصين في علم المعاجم وعلم الذخائر 
اللغويةاة*!. وقد كانت المبادئ التي وُضعت لاختيار المواد اللغوية لذخيرة 
كوبويلد في الثمانينيات كما يلي: 
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-١‏ اللغة التحريرية تمثل نسبة ©901» والشفهية نسبة ©؟90. 

-١‏ يُشترط في المواد اللغوية التي يتم جمعها أن تكون من اللغة 
الإنجليزية القياسية» ولا يتم الجمع من اللغة الشفهية غير القياسية. 
وتمثل المادة المجموعة من الإنجليزية البريطانية نسبة ,90٠١‏ أما 
الإنجليزية الأميركية فتمتل 96075 أما باقي مناطق اللغة الإنجليزية 
فقد تم تمثيلها بنسبة 905 من المادة اللغوية. 


~٣‏ تعكس المادة اللغوية استخدامات اللغة الإنجليزية المعاصرة مع 


السعي قدر الإمكان لأن تكون المادة اللغوية حديثة. 
؛- لا يتم جمع الشعر أو المسرح أو النصوص التقنية. 
-٥‏ تتمثل مصادر المادة اللغوية في البالغين من الأعمار فوق سن ٠١‏ سنة» 
ولا تقل نسبة الأعمال النسائية عن %۲١‏ من إجمالي الذخيرة اللغوية. 
5- المادة المجموعة لا تكون في صورة عينات أو مقتطفات» وإنما 
في صورة كاملة أو أجزاء كبيرة من نصوصء في حدود سبعين 
ألف كلمةء ليتناسب ذلك مع الدراسات القائمة على مستوى 
النصوص الكاملة. 
وصل حجم المادة الأولية التي تم جمعها في البداية إلى عشرين مليون 
‘anal‏ ويرجع الفضل إلى هذه الذخيرة اللغوية الكبيرة في إصدار (معجم 
كوبويلد للغة الإنجليزية)* COBUILD English Language Dictionary‏ 
الذي أصدرته دار نشر كولينز عام ۱۹۸۷ o haa Jj iel ga yN‏ 
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نوعه في مجال تأليف المعاجم على مستوى العالم. ويتمثل الاختلاف بين 
معجم كوبويلد وغيره من المعاجم في أنه يحتوي أمثلة لغوية دقيقة وواضحة 
عن الكلمات وشرحها وأساليب استخدامهاء وأن جميع الأمثلة المذكورة 
مصدرها لغة حقيقية» ولم تتم صياغتها بمعرفة مؤلفي المعجم. وتُعتَبّر تجربة 
مؤلفي هذا المعجم مثالا نموذجيًا لإمكانية الاعتماد على الذخائر اللغوية 
ومنهجية تحليل المواد اللغوية فيها لإجراء دراسات لغوية واسعة النطاق. 
وتَسْتَخْدّم ذخيرة كوبويلد اللغوية بصورة أساسية في الدراسات المتعلقة 
بالمفردات» والمعاني» والقواعدء بالإضافة إلى طرق الاستخدام اللغوي في 
اللغة الإنجليزية. كما يتم إمدادها بالمواد اللغوية الحديثة بصورة متتالية الأمر 
الذي جعل من ذخيرة كوبويلد اللغوية ذخيرة ديناميكية تتغير بصورة متوالية. 
وقد اكتشف العلماء من خلال دراساتهم لذخيرة كوبويلد على مدى 
عشر سنوات أن إطار المفردات في اللغة الإنجليزية متسع للغايةء بالإضافة 
إلى أن تلك المفردات يتم استخدامها بطرق متعددة. وذلك يبت أن الدراسات 
اللغوية يلزمها من العينات ما يتناسب مع هذا الحجم من الاستخدام المتتوع 
للغة ومفردتها. ويطلق على هذه الذخيرة في الوقت الحالي اسم "بنك اللغة 
الإنجليزية" Ld aaa das da (The Bank of English)‏ اللغوية التي 
تضمها "٠١‏ مليون كلمة؛ وقد أَجْريّت عملية ترميز لأنواع الكلمات داخل 
هذه الذخيرة اللغوية» بالإضافة إلى عمل تحليل نحوي جزئي للمادة اللغوية 
بها يصل إلى ٠٠١‏ مليون كلمة. والمادة اللغوية المتضمّنة في تلك الذخيرة 
كلها مواد حديثة؛ حيث إن معظم النصوص الموجودة بها من النصوص التي 
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ظهرت بعد عام ١۱۹۹ء‏ وتشمل المواد التحريرية بها نصوصا قصصية» 
وغير قصصية» بالإضافة إلى الجرائد والمجلات والنشرات والمراسلات 
والتقارير وغير ذلك. أما المواد الصوئية فتشمل حوارات يومية:؛ وإذاعة؛ 
ومؤتمرات ومقابلات» ومناقشات... إلخ. ويرى سنكلير أن هذه الذخيرة 
اللغوية pb‏ أمثلة حقيقية وموضؤعية عن اللغة الإنجليزية في مجالات الحياة 
اليومية لغالبية الناس وذلك في مستويات الاستماع والحديث والقراءة 
والكتابة. 
كما يقدم كوبويلد برمجية تتيح لمؤلفي المعاجم وعلماء اللغة إجراء 
تحليل معقد على المادة اللغوية داخل الذخيرة؛ حيث يمكن لهذه البرمجية أن 
تقوم بالمهارات التالية: | 
-١‏ عمل مسح لأنماط التراكيب التي تأتي مع كلمة محددة 
واستخراجها. 
؟ - الكشف عن معدل تكرار الكلمات. 
۳- استخراج أمثلة واقعية عن الاستخدام اللغوي لكلمة من الكلمات» بل 
إجراء تحليل لتلك الأمثلة» ونسخ النتائج على وسائط التخزين الصلبة. 
في عصر Sle sled La sl gi‏ أصبحت هناك AL iala‏ تتزايد 
ر و ن ف ا ا ا ا و 
معالجة الشكل الكتابي للغةء أو الاستكشاف والإبحار داخل المعلومات 
اللغويةء أو الترجمة الآلية وغير ذلك. وتعتبّر خدمات المعلومات الرقمية من 
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الأجزاء التي تلعب دور! محوريًا في هذا المجال. ويمكن لذخيرة كوبويلد أن 
تقدم معلومات غزيرة فيما يتعلق بالمفردات والقواعد, الأمر الذي يضمن 
تطوير التكنولوجيا الخاصة بمعالجة اللغفة في المجالات سالفة الذكر 
Ne‏ | 
سادسسا: ذخيرة لونجمان اللغوية Longman‏ 


ظهرت هذه الذخيرة نتيجة العمل الذي قامت به لجنة ذخيرة لونجمان 
à Longman Corpus Committee‏ الفترة من يناير ۱۹۸۸ إلى نوفمبر 
۰ وقد أشارت سومرز SE å (Summers)‏ الخاصة بإنشاء الذخيرة 
إلى الخصائص التي اتبعّت لتصميم ذخيرة لونجمان وهي كالتالي: 


- الهدف من إنشاء ذخيرة لونجمان هو بناء ذخيرة لغوية متعددة 
الأغراض بمعايير موضوعية 

كان الهدف من ذخيرة لونجمان هو إنشاء ذخيرة لغوية جديدة تماما 
للغة الإنجليزيةء وذلك عن طريق جمع كميات كبيرة من النصوص طبقا 
لمقاييس ومعايير مناسبة وواضحة؛ وذلك بغرض وضع تلك الذخيرة لخدمة 
صناعة المعاجم وخدمة المحافل العلمية. في البدايات الأولى للذخائر اللغوية 
تكونت ذخيرتا براون ولس إي يو yee bY Ú (SEU)‏ تم وضعه سابقا 
لتحديد حجم المادة اللغوية. وكان الأسلوب المع دائمًا هو أن المادة اللغوية 
يتم جمعها بصورة مباشرة (فيما عدا النزر القليل) ولم يعتمد مصممو هاتين 
الذخيرتين على أسلوب المواد القياسية التي يتم تحديدها سابقا في جمع المادة 
اللغويةء الأمر الذي تسبب في وجود أمثلة لغوية مُشوّهة. أما ذخيرة لونجمان 
فقد اتبَعّت منهجية مختلفة عن الذخائر السابقة في بناء الهيكل الأساسي لها. 
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۲ مبادئ تصميم ذخيرة لونجمان 

أ) الاعتماد على جمع النصوص التي تنتمي إلى أهل اللغة الإنجليزية 
الأصليين 

حيث اعتمد مصممو ذخيرة لونجمان بصورة كبيرة على تراكم المعرفة 
اللغوية لأهل اللغة الإنجليزية على مدى أزمان طويلة» وأعطوا أولوية كبيرة 
ual‏ اللغوي لأهل اللغة الإنجليزية. واعتمادًا على ذلك المبدأ تمكن مؤلفو 
المعاجم من تحليل المعلومات اللغوية الخام داخل الذخيرة اللغوية وتفسيرهاء 
بالإضافة إلى أنهم تمكنوا من تمييز ما يمكن القياس عليه وما هو نادر 
الظهور داخل اللغة. ولكن في الوقت ذاته قدمت تلك الذخيرة لمؤلفي المعاجم 
كمية كبيرة من المعلومات تفوق إحساسهم الموضوعي تجاه اللغة بشكل كبير» 
واستطاعت الذخيرة في أغلب الأحيان أن تتغلب على سوء الفهم الذي كان 
يبدو على الناس في السابق تجاه بعض الكلمات وأنماط القواعد النحوية» 
بالإضافة إلى أنها ألقت الضوء على العديد من الخصائص اللغوية الجديدة 
للكلمات. وهذا ما لم يكن لمؤلفي المعاجم تصوره في الماضيء فالأهم عند 
بناء الذخيرة اللغوية هو احترام شعور أهل اللغة الأصليين تجاه اللغة؛ 
بالإضافة إلى سلطة الذخيرة اللغوية في إقرار ما يتعلق بذلك الشعور من 
خصائص اللغة. 

ب) إتاحة الذخيرة اللغوية لخدمة البحث العلمي 

كان الهدف هو إنشاء ذخيرة لغوية متوازنة تَعَبّر عن اللغة الإنجليزية 
خلال القرن العشرين» وبحيث تغطي تلك الذخيرة كلا من النموذج الأميركي 
والبريطاني من اللغة الإنجليزية. كما تشمل التحولات الرئيسة على ساحة 
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القوميات الأخرى الناطقة باللغة الإنجليزيةء ويكون ذلك مُشتملا على 
الإطارين التحريري والشفهي من اللغة. 

الاستخدام الأساسي للذخيرة هو: إتاحة بيانات لغوية موضوعية يمكن 
الاعتماد عليها في تقديم تصور إجمالي للغة يمكن الاعتماد عليه؛ بالإضافة 
إلى وضع الأساس لتأليف المعاجم وكتب النحو وجميع المؤلفات الأخرى في 


علوم اللغة. 
الاستخدام الفرعي للذخيرة هو: تقديم ذخيرة متوازنة الحجم عن اللغة 
الإنجليزية في القرن العشرين. 


ج) البدء بتطوير الجزء المتعلق بالمستوى التحريري. 
*- منهجية اختيار المادة اللغوية ‏ 

المادة اللغوية موضع الاختيار ينبغي أن تعبر عن اللغة الإنجليزية في 
القرن العشرين ابتداءً من عام ١٠۱۹ء‏ مع التركيز بصورة أكبر على المواد 
اللغوية المعاصرة. وتَقتّم النصوص من حيث .النوع إلى نصوص معلوماتية 
(Imaginative) 41a asais (Informative)‏ ويشغل كل من هذين 
النوعين نسبة %٦٠‏ و %٤١‏ على التوالي» إلا أن القائمين على بناء ذخيرة 
لونجمان يعتقدون أن النصوص القصصية أكثر تأثيرًا من النصوص غير 
الأدبية» بل لها عدد أكبر من القراءء ويمكن إثبات ذلك ببساطة عن طريق 
الاطلاع على المعلومات الإحصائية عن حالات الاستعارة والقراءة داخل 
المكتبات. 


أ) موضوعات النصوص: النصوص الحوارية أكثر مسن النصوص 
الإبداعية 

تتوزع المادة اللغوية داخل ذخيرة لونجمان على عشرة مجالات. من 
بين هذه المجالات نصوص قصصية تصل إلى 965٠‏ من حجم الذخيرة 
وتشمل هذه النسبة الشعر والمسرح والكوميديا. ونعتبّر النصوص التحريرية 
هي المحرك الأساسي لاختيار الموضوعات وليس الشكل الأدبي. ونسبة ما 
تمثله الموضوعات العشر من حجم الذخيرة كما يلي: 


۳,< % 
14,۱ % 
.م 

E 
H% v,a 

EV 
% ov 
% 
% YY Larue الشعر والمسرح‎ )٠ 


ب) الخصائص الرئيسة للمستندات 
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من أجل تقسيم النصوص الموجودة داخل الذخيرة اللغوية حسب 
الأنواع المختلفة للمستندات تم اتباع أربعة تقسيمات خارجية فرعية تشير إلى 
الخصائص الرئيسة للنص؛ متل: المنطقة التي ينتمي إليها النص» وزمن 
صدوره» ووسيط نشر النص» ورتبته. وجميع هذه الخصائص فيما عدا رتبة . 
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النص بمثابة عنصر قياس موضوعي للنص» وكل نص من النصوص 
التحريرية ينبغي أن يتضمن إشارة إلى تلك الخصائص. 

المنطقة التي ينتمي إليها النص: تعرضت مواد الذخيرة لإنجلترا 
بصورة أساسية. على أساس النسبة التالية: إنجلترا Hte LS pyd g »%٠١‏ 
والدول الأخرى .%٠١‏ 


زمن صدور النص: لم تلجأ ذخيرة لونجمان إلى فكرة وجود فترة 
زمنية محددة لاختيار المادة اللغوية:؛ وإنما احترمت منهجية الذخيرة 
التاريخية؛ حيث غطت المواد الإنجليزية منذ عام ١٠1١؛‏ ولذلك نجدها 
ملائمة بصورة أكثر لتغطية أهداف الذخائر اللغوية ذات الاس تخدام العام. 
وتتضح نسبة توزيع النصوص زمنيًا من خلال الجدول التالي: 


جدول :(Y-Y)‏ الفترات الزمنية للنصوص في ذخيرة 
لونجمان 

النصوص الإبداعية_ | النصوص المعلوماتية 

| 
A A 

وسيط النشر: مصادر جمع ال"نصوص التحريرية تشمل الكتبء» 
والجرائدء ومتفرقات. وهذه المتفرقات تشمل النشرات غير المطبوعة 
والإعلانات والتقارير التجارية والإخطارات الحكومية والمنشورات وغير 
ذلك. ومن بين النصوص التحريرية كان المصدر الأساسي للجزء الخاص 
«بالقسيوص الإبداغية هو الكتفب» أننا التضوص المطوماقية فك شمل الب 
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والجرائد والمتفرقات. أما نسب الوسائط المختلفة فقهي 9980 للكتب» 
و ",967 للجرائدء و۷,٦%‏ للمتفرقات. 

رتبة النص: وهذه أصعب خاصية يمكن تحقيقها لضمان توافق الأنواع 
داخل الذخيرة؛ حيث تحتل النصوص الإبداعية بما تشمله من قصص أدبية 
الرتبة الأعلى بين النصوصء يليها النصوص الخاصة بالمعلومات 
والنصوص التكنولوجية. وبالإضافة إلى ذلك فقد صمّمت ذخيرة UL‏ 
لتشمل بعض الخصائص الثانوية للنصوص. | 

انطلاقا من المقاييس والقواعد السابقة» فقد انتقت ذخيرة لونجمان 
نصوصها من أصل ٠٠٠١‏ نوع من المصادر اللغويةء من بينها أكشر مسن 
نص تم اجتزاؤه من كتب» وقد وصل حجم المادة اللغوية في الذخيرة بأكملها 
إلى ۲۸ مليون كلمة متاحة للباحثين من أجل الاستخدام في البحث اللغوي. 
سابعا: الذخيرة القومية البريطانية BNC‏ 

مما لا شك فيه أن الذخيرة القومية البريطانية التي أنشئّت في الفقترة 
من عام ۱۹۹۱ حتى عام ١3960‏ تتسم من حيث تصميمها وأسلوب جمعها 
أنها أكبر الذخائر حجمًا على مستوى العالم. وقد شاركت الحكومة البريطانية 
ب %١‏ من قيمة تمويل إنشاء هذه الذخيرة» وقد تم تطوير هذه الذخيرة 
بالتعاون بين كل من دار نشر جامعة أكسفورد ومجموعة لونجمان ودار نشر 
تشامبرز والمكتبة القومية البريطانية وجامعة أكسفورد وجامعة لانكاستر. وقد 
قدم كل من هذه الهيئات جميع ما لديها من خبرات وإمكانات إدارة ونشر 
النصوص الإلكترونية وتأليف المعاجم ومجالات تحليل الذخائر اللغوية حتى 
يكن العمل في إطار مشترك من أجل تصميم تلك الذخيرة اللغوية وتطويرها 
وترميزها. ونظر! إلى أن ذخيرة بي إن سي BNC‏ تشتمل على نصوص 
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تحريرية وأخرى شفهية بالإضافة إلى كبر حجم مادتها اللغوية» الأمر الذي. 
ولد LAN‏ أن تَصنْبحَ المصدر القومي الأساسي للاطلاع على المصادر 
الإنجليزية مثلها في ذلك مثل ذخائر إس إي سي 580: وبراون؛ ولوب 
8 وما قدمته من إسهام في حقل الدراسات اللغؤية المبنية على ذخائر 
لغوية في أثناء عصر الجيل الأول من الذخائر. وقد كان الفكر التصميمي 
لذخيرة بي إن سي 8380 يتمتع بقدر عال من التوازن؛ حيث جمعت الذخيرة 
قطاعًا عريضنا من النصوص التحريرية والشفهيةء الأمر الذي جعلها المصدر 
الأساسي الأكثر انتشارًا واستخداما في التطبيقات اللغوية التجارية والعلمية 
والتعليمية. تشمل ذخيرة بي إن سي©87 عدد 4174 نصء تمشل اللغة 
التحريرية (WA, is le‏ أما اللغة الشفهية فتمثل .96٠١‏ وعلى الرغم من 
أن الجزء الشفهي الذي يصل إلى حوالي ٠١‏ مليون كلمة» يُعْتَبّر في الوققت 
ذاته أكبر نص شفهي يمثل اللغة الإنجليزية حتى الآن» فإن ليتش (Leech)‏ 38 
لاحظ عام ١157‏ أن ذخيرة بي إن سي ©8381 لم تستطع أن تحقق التوازن 
بين حجم المحتوى التحريري والمحتوى الشفهي في المادة اللغوية الممثقلة 
بداخلها. ويقدم المصدر رقم وهو موقع الذخيرة على شبكة المعلومات 
تعريفا عن توزيع المادة اللغوية داخل ذخيرة بي إن BNC‏ 
١‏ ذخيرة ©8731 للنصوص التحريرية 

تضم ذخيرة بي إن سي 8٤‏ النصوص التحريرية عدد ٠۲٠۹‏ 
نصوصء وكل نص من هذه النصوص يتمتع بالخصائص اللغوية للفئة 
اللغوية التي يندرج تحتها. وعند اختيار المادة اللغوية يتم التحقق من وجود 
ثلاث خصائص هي تاريخ الإصدار ووسيط النشر والمجال الرئيس الذي 
تندرج تحته تلك المادة. 


أ) تاريخ الإصدار 


جدول :)٤-۲(‏ تواریخ إصدار النصوص في ذخيرة بي إن سي 132/00 


a‏ نسبة التمثيل ذ 























%1,0 14V E-A 
HA, AA ۱۹4۳-0 
%17,0 من دون تاريخ‎ 








ب) وسيط النشر 

لا يتعدى حجم أي نص في ذخيرة بي إن سي 8710 مهما بلغ حجمه 

عدد ٠١‏ ألف كلمة» والجدول التالي يبين لنا نسبة المصادر التحريرية 
جدول 5-7: نسب توزيع الوسائط المختلفة من 

_ النصوص على ذخيرة بي إن سي‎ O 































a1, tr wh x = z 
Hever ENA = الكتب‎ 
| %1,1 VAY الجرائد‎ 
9000 YAY أوراق متفرقة (إعلانات ونشرات)‎ 
in أور اق متفر قة ے‎ 
ان‎ Yio 3 el Sia COLI 
% ۲ £4 لغة شفهية مكتوبة في شكل تحريري‎ 





ج) المجال 


هناك نسبة ٠١‏ من النصوص داخل ذخيرة بي إن سي 873100 تندرج 
تحت بند النصوص الإبداعية» ونشرت جميعا بعد عام ٠‏ »؛ وهناك نسبة 


٠‏ من النصوص تندرج تحت فئة النصوص المعلوماتية نشرت جميعها 
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التي تم جمعها من المجلات الأسبوعية؛ وذلك بسبب أن مصممي الذخيرة قد 
راعوا التأثير الثقافي المستمر للأعمال الأدبية في المجتمعء والجدول التالي 


جدول )1-7( نسب توزيع المجالات داخل ذخيرة بي إن سي 



















































 ةريخذلا عدد النصوص | نسبة التمثيل داخل‎ J 
کا‎ ۷ ilay] gapai 
1 #6 tA vee a العلوم الطبيعية‎ | 
000 re العلوم التطبيقية‎ 
9001 GAR 5 العلوم الاجتماعية‎ 
| 4,۱۱ fo | الشئون الدولية‎ | 
% A,Ao 4 | التجارة والمال‎ | 
% ۸;۷ Yoq | الفنون‎ | 
t,o en العقيدة والفكر‎ | 
00001 ne ۳۷٤ الترفيه‎ | 
من دون تصنيف ا‎ 














؟ - ذخيرة بي إن سي 8710 للنصوص الشفهية 

تضم ذخيرة بي إن سي 8٥‏ مواد شفهية تصل إلى ٠١‏ ملايين كلمةء 
وقد أخدّت هذه المادة من مصدرين أساسين: مواد إدارية رسمية-ا×عاهء) 
Clic s governed material)‏ إحصائية. ويصل حجم المواد الإدارية 
الرسمية إلى ٠٠١٤١١٤۸‏ كلمة. أما العينات الإحصائية فيصل حجمها إلى 
YAZOVOY‏ 
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(Í‏ النصوص الشفهية المأخوذة من المواد الإدارية الرسمية 

من أجل الوصول إلى تغطية شاملة لأنواع النصوص الشفهية المختلفة 
ضَمَّت المواد الإدارية الرسمية الأنواع التالية: المحاضرات وما يتعلق بها 
من أحداث تتصل بالمعلومات الخاصة بالعملية التعليمية؛ وتسجيلات الفيديو 
واستطلاعات الرأي والاختبارات الشفهية وما شابه ذلك من أنشطة؛ بالإضافة 
إلى النشرات المصورة والخطب الحكومية والمؤتمرات العامة والاجتماعات 
البرلمانية» وغير ذلك من الأعمال. الحكومية والعامة؛ كما ضمت الذخيرة 
التعليقات الرياضية المُصوّرة وأنشطة النوادي والأحاديث الإذاعية عبر 
التليفون وغير ذلك من الأنشطة الترفيهية والحوارات. وقد تم جمع هذه 
النصوص الشفهية بصورة منتظمة من عد ١‏ منطقة على مستوى 
بريطانيا. 


والجدول التالي يوضح النسب التي يحتلها كل نوع من النصوص داخل 


الذخيرة. 


جدول (؟-3): توزيع المواد اللغوية الشفهية حسب 
السياق داخل ذخيرة بي إن سي 
المواد الإدارية نسبة التمثيل داخل 


الرسميه الذخيرة 
%1۸,۸ 
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ب) النصوص الشفهية المأخوذة من العينات الإحصائية 

المصدر الثاني للنصوص الشفهية يضم ٤‏ نصًا قدمها عدد من 
المتطوعين» وقد وصل حجم هذه المادة إلى 7٠٠٠١‏ ساعة صُنَجِّلَة تم تحويلها . 

إلى مكافئ كتابي. وتضم الحوارات موضوع تلك التسجيلات جميع مناحي 
الحياة المختلفة» وتم جمعها من عدد 78 منطقة إدارية على مستوى إنجلتراء 
وينتمي هؤلاء (ذكور وإناث) إلى ؛ طبقات اجتماعية مخئلفةء وقد وزعت 
المادة متوازية على أشخاص من الذكور والإناث في أعمار تتراوح بين ١٠ء‏ 
و٠٠‏ عامًا أو أكثر. وكان كل متطوع أو متطوعة يحمل جهاز تسجيل 
محمولاً على الكتف» ويقوم بتسجيل حوارات كاملة بين الأشخاص على مدى 
يومين بصورة لا.تلفت الانتباه. ثم gk‏ جميع الأشخاص أنه قد تم تسجيل 
حواراتهم» وإعطائهم سلطة حذف ما يرغبون من محتوى شريط الكاسيت. 
كما تم تسجيل جميع المعلومات الخاصة بمحيط الحديث» وجميع المعلومات 
المتعلقة بالمتحدثين. وتشتمل تلك التفاصيل الخلفية الثقافية للمتحدث؛ 
والحركات التي يقوم بها في أثناء الحديثء بالإضافة إلى مكان الحوار وزمنه 
وتاريخه والمستمعين ودرجة الارتجال وموضوع الحديث ونوع المشاركين 
وأعمارهم وجنسياتهم ووظائفهم ودرجة تعلمهم ودرجاتهم الاجتماعية 
وعلاقتهم بالمتحدث» ودرجة اللغة العامية المستخدمة وغير ذلك. وقد تم 
تحويل النصوص الصُّمَجّلّة كافة إلى شكل تحريري كلمة بكلمة. مسع عدم 
إغفال الوقفات» والتردد في أثناء الحديث؛ والأخطاء اللغويةء والتكرار سواء 
على مستوى الصوت أو الكلمة أو غير ذلك. بالإضافة إلى الحديث بصوت 
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عال والتهامس وغير ذلك من الخصائص اللغوية الفائقة. ولم يتم وضع 
ترميز للخصائص الصوتية وتم الاكتفاء بوجود معلومات قليلة عن الإيقاع؛ 
ولذلك يمكن أن تستخدم ذخيرة بي إن سي 8٣‏ في إجراء ما نحتاج إليه من 
الدراسات الصوتية الدقيقة للغة. | 


*- الخدمات التي تقدمها ذخيرة بي إن سي BNC‏ 

تم تحويل جميع النصوص الموجودة بذخيرة بي إن سي إلى نصوص 
مطابقة للمواصفات القياسية الدولية للنشر الإلكتروني (567341) أما.المادة 
اللغوية داخل الذخيرة فقد Gib‏ عليها نظام الترميز الخاص بالأنواع النحوية 
. للكلمات الذي طورثه جامعة لانكاستر والمعروف باسم A US CLAW‏ 
ذخيرة بي إن سي واجهة برمجية قوية للبحث عن المعلومات والاستعلام 
عنها داخل الذخيرة» ويإمكان تلك الواجهة البرمجية أن تتفذ عمليات البحث 
المعقدة والاستعلام داخل متن الذخيرة اللغوية. 
ثامنا: الذخيرة الدولية للغة الإنجليزية 

في عام ۱۹۸۸ GI ail (Greenbaum) psia gob‏ بإنشاء ذخيرة 
دولية للغة الإنجليزية فائقة الحجم وتطويرهاء وأطلق عليها اسم الذخيرة 
الدولية للغة )The International Corpus of English) 4; 5ia:)1‏ ويطلق 
عليها اختصارً! أي سي إي 5658. والهدف من تلك الذخيرة هو إجراء 
دراسات مقارنة بين اللغة الإنجليزية في عدد من الدول الناطقة بها. ويشمل 
نطاق المقارنة كلا من المستوى التحريري والشفهي للغة. وتضم الذخيرة 
الدولية للغة الإنجليزية الموجودة حاليًا عدد ٠١‏ ذخيرة فرعية يصل حجم 
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المادة اللغوية في كل منها مليون كلمة. وقد تم اختيار المادة اللغوية فيها 
جميعًا من الأشخاص البالغين الذين تجاوزت أعمارهم ١8‏ عاماء الذين تلقوا 
Aaland ooh gl! peas‏ الثانوية وما بعدها. وتلك الذخيرة تضم الدول . 
. التي تتحدث تتحدث اللغة الإنجليزية كلغة أولى؛ مثل مثل: إنجلترا وأميركا وكندا والنمسا 
ونيوزيلندا وما إلى ذلك كما تضم الدول التي تعتبر اللغة الإنجليزية هي 
اللغة الرسمية لها أو لغة الغالبية فيها؛ مثل: الهند ونيجيريا وسنغافورة وغير 
ذلك. وتغطي المادة للغوية التي جُمعت لهذه الذخيرة الفقرة من ١190٠‏ 
i Ee‏ 

وعلى الرغم من أن الغرض من إنشاء الذخيرة الدولية للغة الإنجليزية 
كان إجراء دراسات مقارنة على اللغة الإنجليزية» فإن كل ذخيرة من الذخائر 
الفرعية المكونة لها يمكن الاعتماد عليها بمفردها في عمل دراسات وصفية 
للغة الإنجليزية في كل دولة بمفردها. وقد تمكن الياحثون من خلال هذه 
الذخيرة من اكتشاف بعض أنواع الاختلافات في استخدام اللغة الإنجليزية 
باختلاف الدول» على سبيل المثال التعرف على الدول التي تسنتخدم عبارة 
(different from)‏ والدول الأخر ى التي تستخدم «(different )٥(‏ كما يمكن 
يويد ا ey ee‏ 
مثل استخدام أسلوب النفي التوكيدي وغير ذلك. 

كانت أول ذخيرة فرعية تم إنشاؤها في إطار الذخيرة الدولية للغة 
الإنجليزية هي الذخيرة الإنجليزية البريطانية. ومكونات هذه الذخيرة تتنضح 
من خلال الجدول رقم . وبعد ذلك اتبَعَت باقي الذخائر اللغوية في الدول 
الأخرى الهيكلية نفسها في بناء 8-1١‏ محتوي كل منها. وتحتوي كل ذخيرة 
فرعية في الذخيرة الدولية للغة الإنجليزية Ove‏ عه ليق له سيت عل 
عينة ٠٠٠١‏ كلمة تقريبّاء وتشغل المادة التحريرية نسبة ۰ من محتويات 
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الذخيرة» وغالبية المادة الشفهية التي تصل إلى ٠١‏ نص عبارة عن 
حوارات عامة معلنة. . 


جدول (۸-۲): بنية الذخيرة الدولية للغة الإنجليزية 


مستوى اللغة الشفهية (300 نص) 
حوارت (180) 
حوارات خاصة (100) 
حديث مباشر (90) 
حديث عبر الهاتف (10) 
موضوعات عَلْنِيةَ (80) 
محاضرات )20( 
مناقشات عبر الإذاعة (20) 
أحاديث إذاعية (10) 
مناقشات مجلس الدولة (10) 
مداولات قضائية (10) 
شؤون تجارية (10) 
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إخبارية (علمية) )40( 
ب (10) 
علوم اجتماعية (10) 
علوم طبيعية (10) . 
تكنولوجيا (10) 
إخبارية (عامة) (40) 
Sivas‏ )10( 
علوم اجتماعية (10) 
العلوم الطبيعية (10) 
نصوص تكنية (10) 
نصوص إخبارية (20) 
تكارير )20( 
التعليم (20) 
نصوص إدارية / تعليم نظامي (10) 
مهارات/ حوليات (10) 
توجيهات )10( 
افتتاحيات الأخبار (10). 
خيال (20) 
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الفصل الخامس 
بناء الذخائر اللغوية الصينية 


إن الغرض من بناء ذخيرة للغة الصينية يبدأ أساسًا من الحاجة الماسة 
إلى التحليل الإحصائي للغة الصينية. ويشمل التحليل الإحصائي للغة الصينية 
الدراسات القائمة على معدل تكرار الرموز والمفردات الصينية؛ وذلك من 
أجل بناء قوائم الرموز والمفردات شائعة الاستخدام في اللغة الصينية. 
ويتطلب إجراء دراسات إحصائية على اللغة الصينية التعامل مع حقائق لغوية 
هائلة العدد» وهذا يعني بناء ذخيرة لغوية ذات حجم مناسب لتلك المهمة. في 
البدايات الأولى للذخائر اللغويةء كان هذا العمل الإحصائي يتم من خلال 
المجهود البشري. في الغربء كان أول معجم لغوي قائم على دراسة . 
إحصائية بالمجهود البشري ألفه العالم (Kaeden) (215 Slay! cg sal‏ 
عام 1898. أما في الصينء فكان أول إحصاء قائم على الاستخدام الحديث 





)1( فريدريش فِيلْهلم كايدن (YAYA Asy) (Friedrich Wilhelm Kaeden)‏ قثم في عام ۱۸۹۸ 
بالتعاون مع ثمانمائة شخص دراسة إحصائية يدوية على ذخيرة تحريرية كبيرة الحجم من أربعة عشر 
مصدر! للجرائد والمجلات؛ وبمساعدة عدد خمسة آلاف ناسخ اسخ سريع على الآلة الكاتبة» وقد استغرق هذا 
a‏ 
عليها في تليف أول معهم تكراري للكلمات على مستوى العالم وهو ((المعجم التكراري esis‏ في 
اللغة الألمانية))» وقد اعتبر هذا العمل أول دراسة بحثية على الكلمات باستخدام الأسلوب الإحصائي 
بمفهومه الحديث. (المترجم) 
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للغة الصينية أجراه العالم التربوي تشن خه تشين في عام MV AYA‏ بطريقة 
يدوية مع أربعة من مساعديهء وقد استغرق هذا العمل منهم ما بين عامين 
إلى ثلاثة أعوام» وقد استعانوا في ذلك بذخيرة لغوية مكونة من ٠٥٤٤۹۸‏ 
رمز صيني» تندرج تحت ستة أنماط من النتصوص. وقد أظهرت نتائج 
الإحصاء أن الرموز الصينية التي تكررت داخل هذه الذخيرة يصل عددها 
إلى 4755١‏ رمزاء ومن بين هذه الرموز كان هناك أكثر من ٠٥٦1۹‏ رمزا 
تكرر أكثر من ثلاثمائة مرة: و۱۱۹۳ رمز تكرر أكثر من مائة مرة. وما 
زالت الأرقام الإحصائية التي توصل إليها السيد تشن خه تشن ذات موثوقية 
علمية كبيرة حتى الآن. ومع حلول سبعينيات القرن العشرينء اسستعانت 
الصين بالجهود البشرية في إتمام عملية إحصاء لمعدلات تكرار الرموز 
الصينية في ذخيرة لغوية كبيرة الحجم تصل إلى أكثر من ملياري رمز 
صينيء وهذا ما اشتهر باسم "المشروع رقم ."۷٤۸‏ | 

ويُعتبّر التغلب على إشكاليات إدخال الرموز الصينية إلى الحانسب 
الآلي بمثابة وضع حجر الأساس بصورة ملموسة أمام أبحاث الذخائر اللغوية 
الرقمية باللغة الصينية. فمع نهاية سبعينيات القرن العشرين» أنشأت الصين 
على التوالي عددا من الذخائر اللغوية الرقمية كبيرة الحجم التي تستخدم 
منهجيات التحليل الكمي للغة الصينيةء ويُغتبر نشر (المعجم الإحصائي لمعدل 
تكرار الرموز الصينية)ء و(معجم الرموز الأكثر شيوعا في اللغة الصينية) 
وغيرهما من المعاجم من أهم النتائج العلمية لهذه الفترة. ومع حلول ثمائينيات 
القرن العشرين» استعان العاملون في مجال معالجة المعلومات باللغة الصينية 
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بالذخائر اللغوية بصورة أساسية لعمل تمييز آلي لحدود الكلمات داخل 
النصوص الصيينة» وكان ذلك بمثابة المشروع الأساسي لبناء أنظمة الترجمة 
الآليةء والفهم الآلي للكلام» وغير ذلك من التطبيقات القائمة على معالجة 
المعلومات باللغة الصينية. وبحلول تسعينيات القرن العشرين» وتمشيًا مع 
الارتفاع المتزايد لقدرة الحاسب الآلي على تخزين المعلومات ومعالجتهاء 
زادت أيضنًا القدرة على معالجة الرموز الصينية. ففي البدايةء كانت الذخائر 
اللغوية الصينية يتم بناؤها لأغراض ومهام بحثية محددة. مشل عمل 
إحصاءات عن معدلات تكرار الرموز والمفردات الصينيةء وهذا يختلف عن 
وظائف الذخائر اللغوية الحديثة التي يكون لها استخدامات واسعة النطاق» 
التي لا تقتصر فقط على عمل الدراسات اللغويةء بل تمتد إلى عمل دراسات 
معالجة اللغات الطبيعية وما إلى ذلك. ويْعَرفنا الفصل الحالي من الكتاب بعدد 
من الذخائر اللغوية القياسية للغة الصينية الحديثة. 
أولاً: الذخائر المخصصة لإحصاء معدل تكرار الكلمات في اللغة الصينية 
١‏ - مشروع الذخيرة اللغوية العامة بجامعة اللغات والثقافة ببكين 

لقد نتج عن هذا المشروع (معجم معدل تكرار الكلمات في اللغة 
الصينية الحديثة). ومن أجل تأليف هذا المعجم""“'ء قام مركز الأبحاث اللغوية 
بجامعة اللغات والثقافة ببكين بإنشاء ذخيرة لغوية باللغة الصيئية الحديقة 
تصل إلى مليوني رمز صيني. وفيما يلي نستعرض تفاصيل Ega‏ بناء هذه 
الذخيرة: استخدام مختلف المواد اللغوية في مختلف الموضوعات لبناء 
الذخيرةء واستخدام أسلوب العمل اليدوي في عمل تمييز لحدود الكلمات» ثم 
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الاستعانة بالحاسب الآلي في إنهاء مَهُمّةَ إحصاء معدلات تكرار الرموز 
والمفردات الصينية داخل الذخيرة. وقد أتاح هذا المشروع إمكانية عمل 
دراسة استطلاعية شاملة عن الاستخدام الواقعي للرموز والمفردات الصينية 
في اللغة الصينية الجديثة» وقدّم دراسة إحصائية وتحليلية لنظفروف توزيع 
المفردات الصينية في مختلف النصوص بالإضافة إلى معدلات التكرار 
wane‏ الاستخدام» فضلاً عن عمل مقارنة بين القيم التي تمت مشاهدتها وبين 
القيم المتوقعة؛ كما تم إحصاء معدلات ظهور الرموز الصينية في النصوص 
وتحليلهاء ومقارنة قدرتها على تكوين الكلمات من خلال موقع كل منها داخل 
الكلمة. وكان الهدف من المشروع عرض ملامح استخدام الرموز والمفردات 
الصينية من خلال دراسات إحصائيةء والتمييز بين درجات الاستخدام الأكثر 
شيوعًا لكل من الرموز والمفردات الصينية» وبعد إجراء اختبارات عشوائية 
لمعدلات التغطيةء تم عمل تقييم لكامل النتائج التي تم التوصل إليهاء وفي 
النهاية عرضصت قوائم المفردات والرموز النهائية وفقا للشروط الموضوعة 
سابقا مرفقا بها المعلومات الإحصائية الخاصة بها. 

ويقدم المرجع رقم ا شرحا تفصيليًا للأعمال التي قام بها فريق بناء 
تلك الذخيرة اللغوية. 

أ) تحديد قواعد اختيار العينات اللغوية 


في أثناء بناء الذخيرة اللغوية» استرشد مصممو الذخيرة بحدود اختيار 
المادة اللغوية في الذخائر السابقة» مع مراعاة مدى شيوع الاستخدام داخل 
المع وفي النهاية تم الا ستقرار على أن يكون اختيار المادة اللغوية من 
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الجرائد والمناقشات السياسيةء والمؤلفات العلميةء والحوارات اليوميةء 
والمؤلفات الأدبيةء وما إلى ذلك. وفي الوقت ذاتهء تم التطرق إلى الاستعانة 
بنماذج من النصوص اللغوية في المرحلتين الابتدائية والإعدادية؛ بحيث تتمتع 
تلك النصوص بأسلوب لغوي قياسيء بالإضافة إلى مراعاة التدرج في 
المعلومات اللغوية والثقافية لمضمونها؛ ولذلك تم اعتماد النصوص اللغوية 
المعتَمَدَة من JE‏ الحكومة الصينية في الفترة ما بین ۱۹۸۰-۱۹۷۸ كمواد 
دراسية للمرحلتين الابتدائية والإعدادية. ويتمثل توزيع المواد اللغوية التي تم 
انتقاؤها للذخيرة المذكورة كما يلي: 

المجموعة أ: سياسة» واقتصادء وفلسفة» وقانون» وتاريخ» وجغرافياء 
وشئون عسكرية وما إلى ذلك من المقالات الصحفية والمؤلفات التي تعكس 
ملامح الحياة في المجتمع الصيني الحديثء بما يزيد عن ٠٤١‏ ألف رمز 
صيني وما يمثل نسبة %۲٤,٤‏ من إجمالي حجم الذخيرة. 

المجموعة ب: معارق طلميةء ام الختتارها من الملتوئ المتومنط لخلم 
الرياضيات» والأحياءء والطب» والهندسةء والتكنولوجياء وعلوم الطيران 
والملاحةء والفضاءء وتاريخ العلوم» والسيرة الذاتية للعلماءء بالإضافة إلى 
مقالات علمية كلق بالتلبين والماكل والحزاة فيها يض لل مانتين وحن 
ألف رمز صيني» وتشغل نسبة %٠١,۸‏ من حجم الذخيرة. 

المجموعة ج: مواد شفهية حول مواقف للحياة اليومية؛ حيث تم اختيار 
أعمال مسرحية شهيرة تعكس مختلف جوانب الحياة (أعمال لكل من قوه مو 
روه» ولاو شه» وتيان خان» وتساو يوء وو تزي جوانغ)» بالإضافة إلى 
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حوارات كوميدية وحكايات قصصية وما إلى ذلك. هذا بالإضافة إلى التطرق 
إلى احتياجات الحياة اليومية من التعامل الشفهي اليومي؛ وقد تم الحصول 
على جزء من الذخيرة الشفهية عن طريق التسجيل في موضوعات محددة 
والتسجيل في موضوعات عشوائية لمادة شفهية. وقد وصل مجموع المادة 
اللغوية التي تم جمعها إلى ما يقرب من مائتي ألف رمز تحتل نسبة 96٠١,5‏ 
من حجم الذخيرة. 

المجموعة د: روايات» وقصص قصيرة: وأعمال نثرية» وقصص أطفال 
تصل إلى ما يقرب من ۸٠١‏ ألف رمز صينيء تحتل نسبة %٤۸,۷‏ من إجمالي 
حجم الذخيرة. وعند اختيار الأعمال الأدبية تمت مراعاة القواعد التالية: 

-١‏ التركيز على أن تكون الأولوية في الاختيار للأعمال الأدبية 
الصينية المتميزة منذ حركة الرابع من مايوء يلي ذلك الأعمال 
الأدبية التي تمثل الاستخدام اللغوي الجيدء مع تغطية معظم التيارات 
والأساليب اللغوية. 

؟- الإكثار من اختيار الأعمال الأدبية التي تنتمي إلى الفترة ما بين 
أربعينيات إلى سبعينيات القرن العشرين. وبالنسبة إلى الموضوعات 
فقد تم التركيز على أن يتطرق الاختيار إلى معظم موضوعات 
الكتابة الأدبية (الحربء والبناء» والمصانعء والقرية»ء والمدينةء 

. والطبقات الاجتماعية؛ والأقليات القومية» والشخصيات التاريخية› 
ومختلف جوانب الحياة)ء وقد حاول فريق العمل أن يحقق التوازن 
بين حجم المادة اللغوية في جميع المجالات. 
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- الاحتفاظ بتكامل النسخة الأصلية للعمل الأدبي؛ خيث رأوعي أن 
تحتوي الذخيرة نصوصا قصيرة كاملة في إطار عشرة آلاف رمز 
صينيء أما غالبية الأعمال الأدبية الأخرى فقد روعي اختيار أجزاء 
كاملة منها بالإضافة إلى مراعاة أن تكون تلك الأجزاء A Fide‏ 
للعمل الأدبي. 
وبالنسبة إلى مجمل المادة اللغوية» فقد كان الاهتمام بأن يتم اختيار 
المادة بأسلوب العينات المتساوية في الحجم فيما يتعلق بالأعمال التي تتناول 
المناقشات السياسية والمؤلفات العلمية؛ وذلك من أجل أن تكون المفردات 
ذات تغطية شاملة وموضوعية. أما فيما يتعلق بالأعمال المسرحيةء فقد اهتم 
مصممو الذخيرة بعمل الإحصاء على مشاهد كاملة من المسرحيات؛ حيث. 
اقتصر الأمر على الحوار المسرحي والحوارات الداخلية للشخوص 
المسرحية» ولم يتم إدراج وصف المشاهد وغيرها من المواقف السرأدية داخل 
العمل المسرحي في عملية الإحصاء. أما فيما يتعلق بدروس الأدب واللغة في 
المرحلتين الابتدائية والإعداديةء فبالإضافة إلى النصوص الكاملة من اللغة 
الكلاسيكيةء والشعر» والأعمال المترجمة عن اللغات الأجنبيةء فقد تم عمل 
إحصاء بمعدل تكرار الرموز والمفردات داخل الأعمال بكاملها. مجمل 
القول: إن مصممي الذخيرة كانوا على قناعة أن أفضل قاعدة لاختيار عينات 
النصوص داخل الذخيرة :هي مراعاة نسبة التمثيل وتعدد التخصصات. 
والتجانس؛ مع الاهتمام بالتعامل مع مشكلة الحجهم الكلي للذخيرة 
بأسلوب علمي. 
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فحجم الذخيرة إذا كان صغيرًا جذاء لن تتمكن الذخيرة من التعبير عن 
المشكلة محل الدراسة: أما إذا كان الحجم كبيرًا فعلى الرغم من ارتفاع درجة 
دقة النتائج الإحصائيةء فإن الفائض اللغوي في تلك الحالة سيكون كييرا جذّاء 
فضلاً عن التكلفة الاقتصادية العالية. وقد راعى مؤلفو (معجم معدل تكرار 
الكلمات في اللغة الصينية الحديثة) مقدار التكامل بين هذين العفصرين 
بصورة كبيرة في عملية اختيار المادة اللغوية وتحديد نطاقها. 

=( النتائج البحثية لتلك الذخائر اللغوية 

تختلف اللغة الصينية عن غيرها من اللغات الأجنبية التي تعتمد على 
الأبجدية الكتابية؛ حيث تفتقر اللغة الصينية إلى العلامات الصرفية التي تَعَبّر 
عن نوع الكلمةء بالإضافة إلى عدم وجود علامات فاصلة بين الكلمات 
بعضها البعضء الأمر الذي يُمَثْلَ عائقًا كبيرًا أمام عملية إحصاء المفردات 
الصينية داخل الذخائر اللغوية. ولذلك فعند عمل معالجة آلية للغفة الصينية 
الطبيعية تكون البداية بعمل تمييز لحدود الكلمات داخل الذخائر الصينية. وفي 
تلك الفترة كانت جميع الدراسات العلمية التي تسعى إلى تصميم برمجيات 
للتمييز الآلي لحدود المفردات الصينية تستخدم منهجيات مختلفة» ولن يتم 
تجربة تلك البرمجيات بصورة عملية على الواقع اللغوي؛ ولا يمكن القول: 
إن هذه التجارب قد خرجت من إطار النظرية إلى حيز التطبيق» ولا يمكن 
الادعاء أن مشكلة التمييز الآلي للمفردات الصينية قد تم حلها بصورة كاملة؛ 
فما زال هناك نقاط عديدة في تلك البرمجيات تحتاج إلى تعديل وتحسين في 
الأداء. إن مشروع إنشاء هذه الذخيرة اللغوية الذي بدأ عام 19179 قد تم في 
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. ظل تلك الظروف. وفي ذلك الوقت تم الاستعانة بالعنصر البشري في إتمام 
عملية تمييز حدود المفردات الصينية» بالإضافة إلى وضع رموز خاصة 
تُحَدد خصائص كل عينة لغوية» وفي النهاية تم الاستعانة بإمكانات الحاسب 
الآلي في إنهاء عمليات التوثيق» والإحصاءء والتحليل» والتجميع وما إلى ذلك 


أولاً: المهام الإحصائية على مستوى. المفردات في اللغة الصينية الحديئة 
تشمل ما يلي: 


أ- تصنيف المفردات وتجميعهاء ورصد عدد مرات تواتر المفردات» 
والعدد الإجمالي لأنواعهاء والعدد التراكمي لهاء وحساب معدل ' 
التكرار النسبي والتراكمي للمفردات. 

ب- حساب معامل انتشار كل نوع من أنواع المفردات الصينية داخل 
الذخيرة» ومؤشرات الاستخدام. 

ج- تحديد درجات الاستخدام لكل المفردات وفقا لمعدلات تكرارها 
داخل النصوص الصينية» وحساب متوسط طول المفردات الصينية ۰ 
مع تحديد عدد أنواع الكلمات المتواجدة في كل درجة وطرق 
توزيعها داخل كل طول من أطوال الكلمات. 

د- حساب أعلى قيمة مشاهدة وأعلى قيمة مُحْتَمَلة داخل الكلمات ذات 
معدل التكرار الأعلى. 
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ه- إظهار نسب تواجد المفردات أحادية المقطع الصوتيء وثنائية 
وثلاثية ورباعية المقطع وما هو أكثر من ذلك داخل النصوص 
الصينية. 


و- وضع قائمة بترتيب المفردات حسب درجة تكرارها. 

ز- وضع قائمة بترتيب المفردات حسب درجات الاستخدام. 

ح- وضع قائمة للمفردات ذات معدل التكرار الأقل؛ مشل المفردات 
التي تكررت أقل من خمس مراتء وأقل من عشر مرات. 


: المهام الإحصائية على مستوى الرموز الصينية تشمل ما يلي: 


أ- إظهار العدد الإجمالي لأنماط الرموز الصينيةء وتوليد فهرس 
إجمالي للرموز الصينية. 

ب- إحصاء عدد مرات تكرار الرموز الصينية في كل نمط من 
الأنماطء وحساب معدل التكرار النسبي ومعدل التكرار التراكمي 

ج- إحصاء عدد مرات اشتراك كل نمط من الرموز الصينية في 
تكوين المفردات» والمواقع المختلفة التي يحتلها داخل الكلمة (بداية 
الكلمةء ووسط الكلمةء وذيل الكلمة) 

د- وضع قائمة للرموز الصينية حسب معدلات تكرارهاء ووضع قائمة 


144 


» 


؟ - الذخيرة اللغوية التي أنشأتها جامعة الطيران الصينية بالتعاون مع عدد 
من الجامعات 

في التاسع عشر من شهر نوفمبر عام ١۱۹۸ء‏ كلفت أكاديمية البحسث 
العلمي الصينية هيئة التوحيد القياسي بمَهَمَّةَ عمل "إحصاء عدد مرات IIS‏ 
المفردات في اللغة الصينية الحديثة"؛ وقد تولت جامعة الطيران الصينية 
رئاسة هذا المشروع بمساعدة كل من جامعة الشعب الصينية» وجامعة بكين» 
وجامعة وو خان وغيرها من عشر جامعات صينية أخرى. وقد تم الانتهاء 
من هذه المهمة عام VAAN‏ وفي الثلاثين من يونيه عام ١145‏ حصل 
مشروع "إحصاء عدد مرات تكرار المفردات في اللغة الصينية الحديثة" على 
تمويل من الحكومة الصينية. وفيما يلي تعريف بالأعمال التي تم إنجازها من 
خلال المشروع 1. 

أ) مكونات الذخيرة 

تنحصر حدود المادة اللغوية التي تم اختيارها لمشروع إحصاء معدل 
تكرار المفردات في اللغة الصينية الحديثة في المطبوعات الرسمية في الفترة 
ما بين 919١-19875ء‏ وقد تم تقسيم تلك الفترة إلى أربع فترات زمنية 
فرعيةء الفترة الأولى (515١-5543١)ء‏ والفترة الثانية (0٠96١11156-1١)؛‏ 
والفترة الثالثة (3575١375-1١)ء؛‏ والفترة الرابعة .)١1187-1١51/1/(‏ وفي كل 
فترة من الفترات سالفة الذكرء تم جمع المادة اللغوية من خلال فرعين لغويين 
أساسيين هما فرع العلوم الاجتماعية وفرع العلوم الطبيعية» وكل فرع من 
تلك الأفرع الرئيسة تم تقسيمه إلى خمسة تخصصات فرعية. وللتعرف على 
مزيد من المعلومات حول lh Stele‏ التخصصات انظر الجدول رقم “SAV‏ 
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جدول )4-1( توزيع المادة اللغوية بمشروع الذخيرة 
اللغوية لجامعة الطيران ببكين | 









١‏ | الحياة المدنية (الأزياء وا السياحة» 
ب هة ااب ابي واماد بوق revsar)‏ 
طوابع البريد.. إلخ) 
Y‏ | التاريخ والفلسفة (علم النفس» وعلم ey ale g Ay sill‏ 
الجمال» وعلم الاجتماع.. إل 
۳ | السياسة والاقتصاد (التجار ة» و المالء و الإحصا 
a‏ ارام و الاح V4.‏ 
والإدارة.. إل 








VARNES الأخبار والتقارير (التقارير العسكرية الصادرة عن‎ É 


جيش التحرير الصيني 
الآداب والفنون (القصة: والنثرء والشعرء والمسرح. 
wa‏ 
11101 


۴ | الصناعات الخفيفة (الإلكترونياتءو الصناعات 
| القيماوية لمستلزمات الحياة البومية والبلاستيك: ١6‏ 





Ao 





والأطعمةء والنسيج.. إلخ) 
الصناعات الثقيلة (المناجم» والتعدين» وصناعة 
الماكينات» والطاقة.. إل 

5 | المعارف والعلوم الأساسية (الرياضيات» والفيزياء 
والكيمياءء والأحياءء والفلك» والجغرافياء إلخ 


VYVVOAT 





VEVVAGY 





. وقد ثم الحصول على المواد اللغوية من المصادر الثالية؛ 
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العلوم الاجتما 


عية 


العلوم | 


A 
AI 








أ- الجرائد والمجلات. 

ب- المقررات الدراسية. 

TE‏ المؤلفات. 

د- المطالعات العامة (بما في ذلك المؤلفات في العلوم الأساسية). 

ولا تتضمن المواد اللغوية السابقة الأعمال المُترجمة؛ حيث إن هذه 
الأعمال يركز على إنتاج الكُتّاب المشهورينء بالإضافة إلى المؤلفات 
النموذجية في اللغات الأخرىء كما أن عدد المؤلفات في العلوم الطبيعية كان 
منعدمًا في خلال الفترة الأولى (915١153-1١)؛‏ وذلك لعدم إمكانية العثور 
على مؤلفات في العلوم الطبيعية في تلك الفترة باللغة الصينية. : 

وقد وصل حجم المادة اللغوية التي تم جمعها لمشروع معدل تكرار 
المفردات في اللغة الصينية الحديثة ثلاثمائة مليون رمز صيني» وقد تم اختيار 
المادة اللغوية من خلال عدة أساليب لجمع العينات؛ كالعينات العشوائية والعينات 
المنتظمة (مثل عينات الفترة- والعينات الطبقية) وقد وصل الحجم الإجمالي 
للعينات المختارة إلى ما يقرب من ١5‏ مليون رمز صيني. 

ب) استخدامات الذخيرة 

بعد بناء الذخيرة» قام فريق العمل بتنفيذ الأعمال التالية: 

-١‏ تقسيم المواد اللغوية في الفترة ما بين ١519‏ و187١‏ إلى أربع 

فترات» كل فترة تضم مواد تمثل العلوم الاجتماعيةء وأخرى للعلوم 
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تم عمل إحصاء للمفردات على كل قسم من تلك الأقسام بمفردهاء 
الترقيم الصينية التي تصل إلى أربع عشرة علامة. 

-Y‏ استخدام برمجية التمييز الآلي لحدود المفردات الصينية المعروفة 
باسم 2185© للمرة الأولى. 

-٣‏ تصميم برمجية حاسوبية متكاملة وإطلاقها لعمل الإحصاء اللغوي 
للكلمات في اللغة الصينية الحديثة. 

4 - تأليف معجم إلكتروني يتكون من ٠۳٠١١١‏ مادة لغوية. 

5- بناء بنك معلومات عن الرموز الصينية يحتوي 57 خاصية من 

1- طباعة إحصاء عام عن معدلات تكرار المفردات في الفترات 
الزمنية الأربع 1555-65 eq eace‏ 4- 
AAT— YAYY og AYT‏ بالإضافة إلى إحصاء عام عن معدلات 
تكرار المفردات الصينية على مستوى الغلوم الاجتماعية والعلوم 
الأولى حسب الترتيب الأبجدي لنطق الرموز الصينية»ء والثانية 
حسب معدل التكرار داخل الذخيرة. وقد وصل حجم المخرجات 
الورقية إلى عشرة آلاف صفحة. 

Ne‏ هذا المشروع في ذلك الوقت بالخصائص التالية: 
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أ- تم النظر إليه باعتباره المشروع الإحصائي ذي النطاق الأوسع.في 
ذلك الوقت لإحصاء معدل تكرار المفردات الصينية؛ وذلك على 
مستوى الحجم وسعة انتشار المادة اللغوية على مدى زمني طويل 
وشمولية التخصصات التي جُمعت على أساسها المادة اللغوية. 

ب- تجائس التوزيع الكمي للعينات» وضالة التأثر بالخلفية الاجتماعية 
للنصوصء بالإضافة إلى دقة النتائج الإحصائية. 

ج- لأول مرة يتم عمل تمييز آلي لحدود المفردات في اللغة الصينية 
الحديثة على مستوى الصين. 

د- لأول مرة يتم استخدام الأكواد المختلطة لضغط الرموز والكلمات 
الصينية الأمر الذي أتاح إمكانية تمييز الرموز الصينية متعددة 
النطق» الأمر الذي جعل نتيجة الإحصاء أكثر دقة. 


名‏ إنشاء الذخيرتين السابقتين على وجه الخصوص لعمل إحصاء كمي 


باستخدام المفردات والرموز الصينية. إلا أنه للشسف لم تستمر عملية 
الاستفادة منهما في أعمال أخرى؛ بسبب عدم توحيد معايير التكويد الخاصة 


٠# صم‎ 


بالرموز فيهماء الأمر الذي جعل الاستفادة من هاتين الذخيرتين تتوقف عند 
حد مَهّمَّة الإحصاء اللغوي» وعدم استمرارية العمل بهما فيما بعد. وبذلك 
نكون قد عرضنا في النقطتين السابقتين أشهر ذخيرتين لغويتين للاستخدام 
العام في اللغة الصينية. 
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ثانيًا: الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان 

الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان (يطلق عليها 
اختصارًا ذخير ة معهد دراسات تايوان (Sinica Corpus puly åå g yeod‏ وهي 
أول ذخيرة صينية متوازنة تحتوي ترميز! للأنواع النحوية للمفردات الصينية 
على مستوى العالم. وكان الهدف العام من تلك الذخيرة هو بناء ذخيرة 
متوازنة للغة الصينية تتكون من خمسة ملايين رمز صيني. 


-١‏ الفكرة من وراء بناء ذخيرة معهد الدراسات المركزي بتايوان 

سعى فريق العمل المُكلف ببناء ذخيرة معهد الدراسات المركزي 
بتايوان إلى جمع المادة اللغوية للذخيرة منذ عام ۱۹۹۰ ( & Huang‏ 
02 وقد تم جمع نصوص صينية حديثة فيما يقرب من عشرة 
ملايين رمزء ونصوص صينية كلاسيكية تزيد عن Huang & ) je) Cle‏ 
‘SI(Chen:1994‏ ونظرًا إلى الكفاءة التي يتمتع بها الفريق في معالجة المواد 
اللغوية الصينية؛ بالإضافة إلى خبرتهم في معالجة الذخائر اللغوية الإلكترونية 
كبيرة الحجم (16.3.0568:1996)؛ فقد تمتع الفريق بعناصر قوة حقيقية» وضم 
كفاءات بشرية مكنته من الاضطلاع بمَهمّة بناء ذخيرة متوازنة للغة الصينية. 
وقد استهدف فريق البحث في البداية بناء ذخيرة لغوية حجمها مليوني رمز 
صينيء ثم سعى إلى تحقيق المستهدف النهائي وهو الوصول بحجم ال ذخيرة 
إلى خمسة ملايين رمز بعد عدة سنوات» ومن É‏ الاقتراب من نطاق الذخائر 
اللغوية العامة التي نَبّنى في حقل اللغويات الحاسوبية. وتظهر الفكرة من 
وراء بناء هذه الذخيرة اللغوية من خلال النقاط الثلاث التالية: 
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أ) الالتزام بالمعايير القياسية لجمعية اللغويات الحاسوبية بتايوان في 
تمييز حدود الكلمات الصينية . 
إن تمييز حدود الكلمات الصينية من الشروط الأساسية التي تبدأ بها 
عملية معالجة اللغات الطبيعية باللغة الصينية. ولكن نظرًا إلى عدم وجود 
مسافات فاصلة بين حدودى المفردات بعضها البعض في المؤلفات التحريرية 
الصينيةء بالإضافة إلى وجود خلافات حول تلك الحدود الفاصلة والمحَدّدة 
للمفردات في اللغة الصينية من حيث وضع تعريف واضح وموحد لحدود 
الكلمة في اللغة الصينية» فقد تم الاتفاق بين أعضاء فريق بناء الذخيرة على 
اتباع مقاييس مَجْمَع اللغة الصينية بتايوان في تحديد قواع د تمييز حدود 
الكلمات الصينية. وهذا القرار ليس من شأنه فقط تشجيع المشاركة العامة في 
المادة اللغوية المُكوتة للذخيرة» بل من شأنه أيضًا تسهيل الحصول على تغذية 
راجعة مستمرة من مستخدمي الذخيرة عن آرائهم في الطريقة المُتَبْعة في 
تقسيم المفردات داخل الذخيرة؛ الأمر الذي ينتج عنه مرجعية مُهمة لتصحيح 
مسار تمييز حدود الكلمات الصينية داخل النصوص فيما بعد. 
ب) عند اختيار العينات للذخيرة تم اعتماد وحدة الاختيار لتكون اكتمال 
الفقرات بشكل طبيعي» وليس طول النصوص. 
فقد كان أحد المعايير المُتَبَعة داخل ذخيرة براون هو السعي إلى 
تحقيق التوازن في توزيع المادة اللغوية على التخصصات المختلفة» وقد أدى 
ذلك إلى اعتماد طول موحد لاختيار العينات العشوائية في الذخيرة؛ بحيث 


يكون.طول كل نص ٠‏ كلمة. وقد رأى فريق العمل في ذخيرة معهد 
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الدراسات المركزي بتايوان أن اتباع تلك الطريقة من شأنه أن يتسبب في 
عدم اكتمال المضمون اللغوي للعينات. وبالإضافة إلى ذلك» فإن طول النص 
دائمًا ما يعبر عن إحدى الخصائص المهمة في النصء فإذا تم اختيار 
النتصوص على اعتبار طول مُوَخّد من حيث عدد الكلمات» فإن ذلك يُفَقَدُها 
هذه الخاصية. ولذلك»ء فعلى الرغم من أن ذخيرة معهد الدراسات المركزي 
بتايوان قد تجنبت اختيار النصوص الطويلة جدًا والنصوص القصيرة جذاء 
فإنها لجأت بعد تحديد النص إلى معيار أخذ العينات وفقًا للحدود الطبيعية 
للفقرات. فقد كانوا يعتقدون أن هذا التصرف بُمكنهم من الحصول على 
Cte glee 24a ye peed‏ نة متكاملة: 

ج) استخدام غدة مستويات لتمييز حدود الكلمات في المادة اللغوية 

نظرا إلى تعدد العوامل التي تؤثر في ملامح اللغة بصفة Aske‏ فإن 
النظر إلى اللغة من خلال خاصية معينة مثل الموضوع وأسلوب الكتابة في 
تحديد الذخيرة المتوازنة يُعْتَبّر أمرًا غير كاف. ورغبة في التغلب على 
النظرة السطحية في توضيف المادة اللغوية: فقد لجآ فريق بناء الذخيرة إلى 
خمسة معايير مختلفة يتم النظر إلى العينات من خلالها هي: أسلوب الكتابة 
والفكرة: والبناء اللغوي» والعنوان» ووسيط النشر. وعلى الرغم من أن فريق 
العمل قد لجأ إلى أن يكون العنوان هو المعيار الأساس في تحقيق التوازن في 
الذخيرة: فإنهم كانوا يأملون بعد تحقيق عدد من النتائج» في إمكانية استخدام 
أكثر من معيار لتحسين مستوى التوازن في ذخيرتهم» على أن يكون ذلك في 
مرحلة لاحقة من العمل. وهناك فائدة أخرى من هذا الأسلوبء ألا وهي 
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. تسهيل العمل في بناء الذخيرة. وذلك على أساس أن الباحثين الذين 
سيستخدمون الذخيرة فيما بعد بإمكانهم اختيار مجموعة من المعايير يتم العمل 
على أساسها في توليد ذخائر فرعية خاصة بهمء كما يمكنهم عمل دراسات 
مقارنة على تلك الذخائر الفرعية. 
؟- تصنيف المادة اللغوية وطرق اختيار النصوص في الذخيرة المتوازنة 

من أجل التوصل إلى إدارة متميزة في عملية اختيار المادة اللغوية 
بصورة متوازنة» citi J‏ مع كل وحدة لغوية علامات خاصة توضح أسلوب 
الكتابة» والفكرةء والبناء اللغويء والعنوان» ووسيط النشرء بالإضافة إلى اسم 
المؤلف» ونوعه»ء وجنسيته»ء ودار النشرء وما إلى ذلك من خصائص. 

أ) تحديد خصائص النصوص 

بعد الاطلاع على الخبرات السابقة في إدارة كل من ذخيرة لوب» 
وبراون» وكوبويلدء فقد تم الاستعانة بالمبادئ المتبعة في تصنيف الكتبء وقد 
人‏ 
وهذه الخصائص يتم الاستعانة بها في توضيح مصدر المادة اللغوية» وأسلوب 
الكتابة» والمضمون الذي تدور حوله المادة اللغوية وغير ذلكء فالعنوان يُعَبْر 
عن مضمون النصء وتصنيفه؛ أما أسلوب الكتابة فيوضح طريقة التعبير عن 
النص. بالإضافة إلى وضع علامات خاصة توضح ثلاثة مستويات معلوماتية 
هي وسيط النشرء والمؤلف» ودار النشر. فوسيط النشرء يُوَضّح من خلال 
تحديد مصدر المادة اللغوية. والمعلومات الخاصة بالمؤلف توضّح من خلال 
كتابة اسم المؤلف» ونوعه: وجنسيته: ولغته الأم. ودار النشر توطتّح مسن 
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خلال تسجيل المغلومات الخاصة بالطباعة كاسم دار النشرء وتاريخ النشرء 
وعدد الطبعات. 

ب) الموضوع 
استخدم فريق إنشاء الذخيرة منهجية تضنيف الكتب في علم المكتبات كأساس 
لتحديد خصائص الموضوعات. 

أنواع النصوص يقصد بها أسلوب كتابة النص؛ حيث تنقسم النتصوص 
إلى تقارير» ومناقشات» وإعلاناتء ومراسلات» ومكاتبات رسميةء وقصص»ء 
وأساطير» ونثرء ومذكرات» وسيرة ذاتيةء وشعر» وسجلات» وكتالوجاأت»› 
ومسرحيات» وحوارات» وخطب» وسجلات المؤتمرات. وقد استعان 
المصممون بالنصوص الاستشهادية التي ترد على هوامش المجلات والجرائد 
المستخدمة ولكن بنسبة ضئيلة جدًا. أما المراسلات فقد كانت من ثلاثة 
مصادر مخلفة: مراسلات القراء للجرائد والمجلات» ونماذج المراسلات 
المرفقة في المقررات الدراسبية العلمية:؛ والمراسلات الإلكترونية. أما 
النصوص المسرحية فمصدرها جميعًا من دروس ála pa‏ التعليم الابتدائيية»ء 
وجميعها من النصوص النثرية وموضوعاتها في إطار أدب الأطفال؛ والشكل 
اللغوي لها عبارة عن لغة شفهية مدونة. أما الخطب فتضم مسودات الخطب 
حول المبادئ الثلاث للديمقراطية» بالإضافة إلى بعض الخطب التي تحولت 
إلى كتب .أو المنشورة في المجلات. ' 


د) وسيط النشر 


وسيط النشر يتم تقسيمه حسب مصدر المادة اللغوية إلى وسيطين 
مختلفين هما: الوسيط التحريري والوسيط الشفهي. فالوسيط التحريري للمادة 
اللغؤية يمكن تسيمه إلى: ذوزيات؛ وكتب» ed ng‏ ووسائط مرئية 
وسمعية؛ ومؤتمرات» ومتفرقات؛ وتضم الوسائط المرئية والسمعية الحوارات 
التي تستخدم في البرامج التليفزيونية بين سيدتين» بالإضافة إلى النصوص 
المستخدمة في النسخة الإلكترونية من المستندات الحكومية. وق ساعد هذا “ 
النوع من النصوص بصورة كبيرة في جمع عدد هائل من المادة اللغوية 
للذخيرة؛ حيث لم تكن هناك حاجة لإضاعة وقت ت كبير في الحصول على 
حقوق النشرء بالإضافة إلى عدم الحاجة إلى تدقيق تلك النصوص من حيث 
التحويل الخاطئ للكلمات» وغير ذلك من المشكلات التي توجد في الأشكال 
الأخرى من النصوصء بالإضافة إلى إمكانية جمع أنواع عديدة مسن 
النصوص بما يحقق تنوع المادة اللغوية. وإذا كانت المستندات الحكومية 
الإلكترونية بها إشارة إلى مصدر المستند؛ فيمكن تصنيفها مباشرة حسب نوع 
وسيط النشر الخاص بها. أما النصوص التي لا تحتوي تلك المعلومات فلا 
eat of‏ أي تصنيف. أما الدوريات فتنقسم إلى جرائد» ومجلات علمية؛ 
. ومجلات عامة» وتنقسم الكتب إلى كتب تعليمية» وكتب مساعدة» ومؤلفات 
علميةء ومؤلفات عامة. أما الدوريات فتضم الجرائد الدورية الصينية وغير 
الدوريةء بالإضافة إلى الجرائد اليومية للأطفال» ونشرات مركز الحاسب 
بمعهد الدراسات المركزي بتايوان. وتضم المجلات العامة مجلات الشئون 
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العامة والموضةء والسياحةء ومجلات ومجلات السينما؛ أما المجلات 
العلمية فتضم معلومات مختصرة عن الأطباء» والمجلات الصادرة عن وكالة 
القوميات. أما الكتب التعليمية فتضم كتب الأدب واللغة في المرحلة الابتدائيةء 
والحوارات المستخدمة باللغة الصينية الصادرة عن مركز المعلمين بتايوان؛ 
أما الكتب المساعدة فقد جَمَّعت في إطارها التقارير الفنية الصادرة عن فريق 
بناء ذخيرة المفردات الصينية. أما المؤلفات العلمية فتشمل الأبحاث العلمية. 
وتشمل الكتب العامة مسودات الخطب السياسية عن المبادئ الثلاتضة 
للديمقراطيةء والمؤلفات الشهيرة في علم النفس الذي تم تمويلها من صندوق 
خونغ تيان تشوان وما إلى ذلك. والمادة اللغوية الشفهية مصدرها .الحوارات 
اليومية لطلاب الصين الأم المغتربين في أميركا. 

ه) أسلوب الكتابة 

تتقسم النصوص من حيث أسلوب الكتابة إلى الأسلوب السرديء 
والأسلوب الجدليء والأسلوب التفسيريء والأسلوب الوصفي. فالأسلوب 
السردي هو الذي يتناول وصف الإنسان والأشياء من حيبث الخصائص 
والحركة والتغيرات التي تحدث؛ فالمقالات التي تتناول سرذا عامًا أو تلك 
التي تقدم تقارير معلوماتية تم إدراجها تحت تصنيف الأسلوب السردي. وقد 
كانت النصوص السردية هي أكثر الأساليب المستخدمة من بين ما تم جمعه 
من نصوص الذخيرة. أما النصوص الجدلية فهي تلك التي تغرض رأي 
الكاتب الشخصي وتسعى إلى الحصول على تأييد الآخرين وإقناعهم بوجهة 
نظر معينة. والأسلوب العلمي وظيفته الأساسية هي تحليل الظواهر المترتبة 
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على حدث معين؛ أو إظهار الحقائق العلمية» الأمر الذي يمد المتلقي 
بمعلومات أو حقائق عن شيء معين. ولذلك فإن النصوص التي تتناول 
وظائف وطبيعة الأشياء من وجهة نظر موضوعية تنتمي إلى الأسلوب 
العلمي. أما الأسلوب الوصفي فذلك الذي يتناول الأشخاصء والحيوانات؛: 
والأشياء أو الأماكن بالوصف المتعمق؛ ومن الممكن أن يحتوي ذلك الأسلوب 
تشبيهات واستعارات وكنايات وغير ذلك من الأساليب البلاغية؛ حيث يستعين 
بها الكتاب في الوصف العميق لموضوع ما وإظهار خصائصه بصورة 
دقيقة. النصوص الوصفية تحتوي أيضًا ما يتعلق بالمشاعر الداخلية للكاتب 
مثل اليوميات التي تصف المشاهد والكائنات. 

و) الشكل اللغوي 

الشكل اللغوي: يعني الأسلوب الذي تظهر عليه لغة النصوص في 
الذخيرة» حيث تنقسم مادة الذخيرة إلى لغة تحريرية ولغة شفهية:» ومن 
المعروف أن هذين الشكلين يختلفان بصورة كبيرة. ويمكننا تقسيم اللغة من 
حيث الشكل إلى لغة Aad y «(written) 4) 9S‏ مكتوبة لكي (written-to- ie‏ 
:be-read)‏ ولغة مكتوبة لكي يتم التحدث بها «(written-to-be spoken)‏ 
ولغة منطوة 44 «spoken‏ ولغة منطوقة لكي .(spoken-to-be-written) LS‏ 
أما اللغة المكتوبة فتشير إلى اللغة التحريرية العامة» ويندرج تحتها غالبية 
النصوص التي تم جمعها في الذخيرة» أما اللغة المكتوبة لكي يتم التحدث بها 
فتشمل النصوص المسرحية والحوارات الإذاعية التي تكب لكي ي ستخدمها 
شخص ما في ظروف معينة؛ ولذلك فهي تختلف إلى Sa‏ حدٌ كبير مع اللغة 
الشفهية التي تسستخدم في الحياة الواقعية؛ أما اللغة المنطوقة فتشير إلى 
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الحوارات الشفهية العامةء ويعتبر جمع هذا النوع من المادة اللغوية وتنظيمها 
صعب إلى درجة كبيرة» لذلك فإن نسبة تمثيله داخل الذخيرة جاءت قليلة. 

أما اللغة المنطوقة لكي CR‏ فتشير إلى ذلك النوع من النصوص الذي 
يتم تدوينه داخل المؤتمرات؛ ونظر! إلى وجود فرصة للترتيب والمعالجةء 
فيمكن حذف العديد من العناصر اللغوية الزائدة التي تمشل طبيعة اللغة 
الشفهية داخل وقائع المؤتمر؛ وذلك من أجل أن يتم التمييز بينها وبين كل من 
اللغة الشفهية أو اللغة التحريرية الواقعية. 
*- نسب النصوص المكونة لذخيرة معهد الدراسات المركزي بتايوان 

تم توزيع المادة في ذخيرة معهد الدراسات المركزي بتايوان بصورة 

رئيسة حسب الموضوعات» وقد وصلت نسبة تمثيل تلك الموضوعات داخل 

الذخيرة حتى الآن إلى ما يلي: 

90١٠١١ الفلسفة:‎ 

العلوم: %1۰ 

%٣٠ الاجتماع:‎ 

%٥ الفنون:‎ 

AY. hal 

“۲١ الأدب:‎ 

وقد تم اختيار المادة اللغوية وفقا لتلك النسب من المصادر التالية مع 
اعتبار أن وحدة العد هي الرموز الصينية: 


158 


أ) الصّحُف 

الصحف الصينية: ٠ .ol‏ رمزاء الصحف الحرة: ١١١۸۳٣۳٤‏ 
رمزاء صحف الأطفال: 5919750 رمزاء نشرات ومراسلات مركز الحاسب 
التابع لمعهد الدراسات المركزي بتايوان: 151/757 رمزا. 

ب) المجلات العامة 

مجلات الشئون العامة: 5١994‏ رمزاء مجلات الموضة: ١984٠‏ 
رمزاء النشرات السياحية: ١785477‏ رمزاء مجلات السينما العالمية ١48515‏ 
رمزا. 

ج) الدوريات العلمية 

الدوريات الصادرة عن مركز القوميات التابع لمعهد الدراسات 
المركزي: ١١775‏ رمزاء نشرات الأطباء بمعهد الدراسات المركزي: 


Yao ٠ ۷‏ رمزا. 
د) الكتب التعليمية 


المؤلفات الدراسية الصادرة عن الحكومة لمرحلة التعليم الابتدائي» التي 
تقع في ۱۲ مجلدا: 8817/55 رمزا. 


ه) الكتب المساعدة 

التقرير الفني لفريق بناء ذخيرة المفردات التابع لمركز المعلومات 
بمعهد الدراسات المركزي: 8547" رمنا.. 

و) المؤلفات العلميةء والأبحاث 


رمزا. 
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ز) النصوص التي لا يمكن إدراجها تحت تصنيفات سابقة 


۰۱ رمز. 

ح) الكتب 

عدد ثمانية مجلدات لعلم النفس صادرة عن جمعية صندوق.خونغ تيان 
تشوان. 


طا( الوسائط المرئية والمسموعة 

المقالات الصادرة عن الدوائر العلمية التايوانية: ٠٠٠۹٠٠١‏ رمزًا. 

ي) حوارات ومقالات صحفية: 

۱ رمز ا. 
-٤‏ تمييز حدود الكلمات داخل الذخيرة وترميزها من حيث التصنيف النحوي 

.اتبعت ذخيرة معهد الدراسات المركزي بتايوان أسلوب التمييز الآألي 
لكلمات الذخيرة. وقد كانت عملية التقسيم تتم اعتمادًا على التسعين ألف Bale‏ 
لغوية التي تمثل محتويات المعجم الصادر عن معهد الدراسات المركزي 
بتايوان. أما المفردات التي لم ترد في المعجم» فكان التعامل معها يتم 
باعتبارها رموز! ويتم تمييزها على أساس الرمز وليس الكلمة. وبعد ذلك يتم 
الجمع بين الرموز التي لها قوة توليد كلمات عن طريق اللواحق والرموز 
المعبرة عن الأرقام في إطار كلمات مركبة. وعند تمييز الكلمات» كانت 
المبادئ العامة للتمييز كما يلي: 
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أ) الوحدات اللغوية التي لها استقلال من حيث المعنى» يتم اعتبارها 
وحدة يتم تمييز الكلمات على أساسها. 

ب) يتم تمييز الوحدات اللغوية الشائعة وفقا لما هو متعارف عليه في 

ج) المعنى والتركيب يتم النظر إليهما معًا باعتبارهما أساس تمييز 
حدود الكلمات. 

د) يتم التمييز على أساس العلامات التي لها مغزى واضح في الفصل 
بين حدود الكلمات. | 

ه) الوحدات اللغوية المتفقة من حيث الشكل والمختلفة من حيث 
التركيب يتم تمييزها على أساس السياق اللغوى. 

و) إذا كان هناك تضارب في مبادئ التمييز يتم اللجوء إلى اتفاقية 
التوحيد المعياري الصادرة عن جمعية اللغويات الحاسوبية. 


وبناءً على ما سبق تم تمييز حدود الكلمات في ذخيرة معهد الدراسات 


المركزي في تايوان؛ وقد تم اللجوء إلى منهجية البدء بالحاسب» ثم المراجعة 
من خلال العنصر البشري في عمل الترميز اللغوي لمحتوى الذخيرة 
بالكامل» وقد تم استخدام عدد ستة وأربعين رمز في عملية الترميز النحوي 
للمفردات. 


وبالإضافة إلى عملية ترميز أقسام الكلام» فقد تم عمل ترميز آخر 


ليعض العناصر النحوية الخاصة بالذخيرة» وقد تم استخدام ثماني علامات 
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لهذا الغرض» وقد صُمّمَت هذه العلامات خصيصى من أجل الاستخدام في 
رصد بعض الظواهر اللغوية في اللغة الصينية؛ مثل ظاهرة الفعل و المكملء 
والأفعال المتعدية» والوحدات اللغوية التي تتخلل وحدات متعارف عليها 
سابقاء والتراكيب الاسمية والكلمات الدخيلة. 

علاوة على ذلك؛ فقد تم إضافة خاصية الاستعلام داخل الذخيرة وفقا 
للكلمات المفتاحية؛ حيث يمكن استخراج السياقات التي تحتوي كلمات محددة 
من بين محتوى الذخيرة؛ بالإضافة إلى تقديم المعلومات الخاصة بتمييز حدود 
الكلمات وترميزها. 

ويُظهر الجدولان ٠١-7‏ و1-١١‏ نتيجتين للاستعلام بكلمة مفتاحية() 
داخل ذخيرة معهد الدراسات المركزي بتايوان إحداهما تعرض مجموعة 
سياقات وردت فيها الكلمة المفتاحية دون إضافة معلومات عن التصنيف 
النحوي للكلماتء .والنتيجة الثانية السياقات نفسها بعد تمييز حدود الكلمات» 
ومُرفقَا مع كل كلمة الترميز الخاص بتصنيفها نحويً". 


)١(‏ الكلمة المفتاحية التي تم الاستعلام عن سياقاتها هي كلمة ' 试 试‏ وقد تمت 
كتابة هذه الكلمة بالبنط السميك ووّضع أسفلها خط في النص المترجم لتسهيل عملية 
تمييزها على القارئ العربي.(المترجم) 

)١(‏ الغرض التواصلي من عرض الجدولين ٠١-17‏ و7-١١‏ في النص الأصلي هو 
إظهار نتيجة الاستعلام بكلمة مفتاحية داخل الذخيرة؛ مرة عندما تكون النتيجة دون 
ترميزء ومرة ثانية عندما تكون النتيجة مُرمَّزة. ويلاحظ أن النتيجة المرمزة لم تشمل 
جميع الكلمات في الاستعلام الأول» بل اقتصرت على الكلمات المُخّنة في برمجية 
الترميز. ونوجه عناية القارئ إلى أن الكتاب الأصلي ضمٌ مُرفقا به مجموعة العلامات 
المستخدمة في ترميز اللغة الصينية ومعناهاء وقد قمنا بترجمة ما تشير إليه تلك 
العلامات باللغة العربية.(المترجم) 
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جدول “一 人)‏ \(: مواد لغوية من تسعة عشر مقطغعا 
من نصوص مختلفة 
既然 你 非 和 我 比 剑 不 可 ， EEO E , 不 过 ，‏ ": 
随身 带 着 主君 的‏ 


且 又 影响 家 庭 生活 其 巨 。， 00 
ZARR. Ei, 不 妨 以 
用 过 一 次 没什么 感觉 了 下 次 再 去 买 一 副 试 试 只 是 不 便宜 耶 
明天 还 要 考 动力 学 我 要 去 。 
对 非 物理 学 者 而 言 你 可 试 试 ”Close Sutton 和 Marten 
的 此 书包 含 了 许多 
的 绝世 刀 法 。 学 了 两 年 ”， 懒 残 大 师 有 意 试 试 他 的 功力 
便 把 他 叫 来 禅 室 ， 其 时 外 面 


还 在 纽约 的 话 ， ”我 们 就 去 买 双 冰 刀 鞋 来 试 试 
你 就 说 在 屏 东 溜 冰 的 故事 , 穿 好 那 种 


带动 人 际 之 间 的 热 络 气氛 , 你 是 否 也 想 试 试 , 以 镖 会 友 一 番 
? 快 加 入 飞镖 行列 吧 ! 


美 ， 身材 还 过 得 去 ，‏ لاق 

不 妨 去 试 试 运气 。 US 
相信 的 迷信 疗法 ， 她 也 抱 着 一 线 希 望 去 试 

两 年 来 她 为 了 能 传宗接代 做 个 直 正 的 

及 钢琴 等 自动 演奏 乐器 ， 游客 也 可 试 试 身子 ， ree , 
开演 奏 会 的 

了 9 你 走 吧 ! 狐狸 说 : ps ! 
老虎 只 是 试 试 你 的 胆子 大 不 大 而 已 , 没 想到 你 的 胆子 ， 

-真是 一 举 两 得 呀 ! 各 位 有 空 时 不 防 试 试 我 的 消暑 妙 方 ， 不 
然 , 你 总 不 能 一 篆 

大 家 不 妨 试 试 身手 _， 
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看 能 不 能 徒手 抓 到 它们 。 图 说 :1 


是 不 喝酒 的 , 看 看 杯子 这 么 可 爱 , 也 想 试 试 。 "格林 哥 说 :” 
傻瓜 ,这 不 是 杯子 ， 


中 国人 上 了 , 功夫 特别 好 ”， 不 信 可 以 试 试 。 " 
她 们 信以为真 , 极 感 趣 地 打量 着 

一 句 :" 不 论 你 同 不 同意 ,今夜 我 要 试 试 。 "" 喂 ! 中 国人 ! 
难道 你 们 连 做 爱 都 


那 人 关 了 门 开始 剥 身上 衣裳 : 
你 看 我 试 试 夹 只 合适 不 。 Toa 



















一 些 创 意 ， 不 是 一 举 数 得 吗 
大 家 不 妨 试 试 。 大 台北 经 济 证 券 ， 新 台币 汇率 昨日 再 ， 
他 刚 学 会 开车 回国 后 
喜欢 在 台湾 试 试 他 的 开车 技术 。 没 有 开 两 条 街 ， 就 大 叫 


جدول :)1١-17(‏ بعض مفردات المواد اللغوية السابقة 
faya‏ 5 نحويًا 








不 可 (D), 我 (Nh) 也 (D) KF (VL) Atk (VE) 你 (MD 的 
(De) 本 事 (Na), 不 过 (Cbb) 


E (VH), 所 以 (Cbb) 没有 (D) WH (VA) Rik (VF) A 
(VC) K Fo), # D) A (V-2) 


再 (D) 去 (D) K (VC) — (Neu) Bil (Nf) WIR (VE) Re D) 
不 (D) 便宜 CVH) 耶 (T) 


学 者 (Na) 而 (Cbb) 言 9 你 (Nh) 可 (D) 试 试 (VF)Close 
(FW) 和 (Caa) (FW)Sutton 


年 (Nf), 懒 残 (Nb) 大 师 (Na) 有 (VL) 试 试 (VF) 他 (Nh) 


的 (De) 功力 (Na), 便 (D) 把 (P) 


买 (VC) RW (ND WHT) (Na) 鞋 (Na) 3% (D) 试 试 (VE), 你 
(Nh) 就 D) 说 (VE) Æ (P) FR (No) 


你 (Nh) 是 否 (D) E (D) 想 (VE) 试 试 (VF), 以 (P) (Na) 
(Neu)- (VC) 友 (Na) 


还 (Dfa) 过 得 去 (VH), 不 妨 (D) 去 (D) Wik (VF) 运气 
(Na). 假 设 (VE) 你 (Nh) 很 (Dfa) 


着 (Di) 一 (Neu) 线 (Na) 希望 (Na) 去 (D) 试 试 (VE), 两 
(Neu) 年 (Nf) 来 (Ng) t (Nh) 为 (P) 


乐器 (Na), 游客 (Na) 也 (D) 可 (D) 试 试 (VF) 身子 (Na)， 
SSE (VC) AR HH (Na) 


: 象 (Na) 啊 (T)! 老虎 (Na) 只 是 (D) 试 试 (VF) 你 (Nh) 的 
(De) 胆子 (Na) 大 (VED 不 (D) 


位 (Nf) 有 空 (VHD) 时 (Ng) 不 妨 (D) Hi (VF) 我 (Nh) 的 
(De) 消暑 (VA) 妙 (Na), 


重 (Na) F (Na), KX (Nh) FH (D) WGR (VF) 4F (Na), 
78 (VE) BEA BE (D) 徒手 (D) 


24 (D) AX (VH), th (D) 48 (VE) 试 试 (VF) 。 "格林 哥 
(Nb) 说 (VE):" 俊 瓜 (Na) 


{F (VH), 不 (D) 信 (VK) 可 以 (D) 试 试 (VF) 。" 她 们 (Nh) 
信以为真 (VH)， 


今夜 (Nd) R (Nh) 要 (D) Hid (VF). "" E OD! PRA 
(Na)! 难道 (D) 


AR (Na): 你 (Nh) F (VE) R (Nh) W (W) XX (Na) 
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合适 (VHD 不 (T)。 直 到 (P) 
码 (T)? 大 家 (Nh) 不 妨 (D) 试 试 (VF) 。 大 台北 (Ne) 经 济 

| (Na) 证 券 (Na) 
后 (Ng), 喜欢 (VK) 在 (P) 台湾 (Ne) 试 试 (VF) 他 (Nh) 的 
(De) 开 (VC) 车 (Na) 技术 (Na) 







ثالكًا: الذخيرة التزامنية لخمس مناطق صينية 

الذخيرة التزامنية لخمس مناطق صينية يُطلّق عليها اختصارا ذخيرة 
«L۷AC‏ والتسمية الكامل Linguistic Variety in Chinese :a—a l4l‏ 
Communities‏ 85 تم إطلاق هذه الذخيرة من قبل جامعة المدينة بهونج كونج. 

وقد اتبعت هذه الذخيرة أسلوب جمع المادة اللغوية من خلال خطوات 
تزامنية» والغرض من ذلك اختيار مادة لغوية مُمَثيّة لكل منطقة وبحجم 
مناسب» بغرض التوصل لوصف الاستخدام اللغوي الواقعي للغة الصينية في 
عدة مناطق على مستوى الصين» بالإضافة إلى تدعيم النظريات المتعلقة 
باللغة الصينية بالشرح. 

ويقدم المرجع رقم ' شرحا تفصيليًا لهذه الذخيرة من dya‏ عمليات 
البحث والتطوير 
١‏ - خصائص ذخيرة ليفاك LIVAC‏ 

تظهر خصائص الذخيرة المذكورة من خلال النقطتين التاليتين: 

أ) تعتبر عملا غير مسبوق على مدى التاريخ من حيث جمع مادة 
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هذه المناطق الخمس بالإضافة إلى الصين الأم كلا من هونج كونج» 
وتايوان» وسنغافورة؛ ومكاو. 
ب) في أثناء تصميم الذخيرة كان هناك مثابرة وإصرار على جمع 
المادة اللغوية خلال فترة زمنية طويلة جدًا مع مراعاة مسستوى 
التزامن في جمع النصوص على مستوى المناطق الخمس. 
إن جوهر علم اللغة التزامني هو دراسة اللغة من خلال قضية 
افتراضية عبر فترة زمنية محددة؛ بغرض وصف حالة اللغة في تلك الفترة» 
مع عدم الالتفات إلى الوضع السابق والمستقبلي لتلك الحالة. 

إن اللغة كائن حي» يتغير آلاف المرات مع مرور الزمنء وأهم مظاهر 
هذه الحالة من التغير هو ظهور المفردات الحديثة وانتشارهاء أو تغير معنى 
المفردات الموجودة بالفعل أو اختفائها. 

ولذلك فإن جمع المادة اللغوية تحت شروط معينة من الأفضل أن يكون 
تحت مظلة فترة زمنية معيئة بدرجة أو أخرىء الأمر الذي يسمح بعمل 
مراقبة ومشاهدة لظروف انتشار وتغير عدد من المفردات» بما في ذلك 
احتمال خضوع تلك المفردات لتأثير البيئات المختلفة. ولذلك فإن ذخيرة ليفاك 
قد حددت المرحلة الأولى لجمع المادة اللغوية بثلاث سنوات. 

وحتى يمكن الحصول على مواد لغوية مناسبة» تم توزيع المادة اللغوية 
الصحفية التي جُمعت للذخيرة على المناطق الخمس؛ بحيث يتم الحصول 
عليها من صحف تلك المناطق من منشورات يوم واحد مع مراعاة أن تكون 
الموضوعات متشابهة قدر الإمكان. 
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والمقصود بالتزامن في ذخيرة ليفاك هو نوع من التزامن أكثر صرامة 
من ذلك المتعارف عليه في مفهوم التزامن المستخدم في علم اللغة التزامني؛ 
بمعنى أن يتم عمل مراقبة زمنية لمحتويات الذخيرة في خلال الفترة الزمنية 
التي يتم التعامل معهاء والغرض من ذلك هو الرغبة في أن تكون هناك 
فرصة لمراقبة ظواهر النمو أو الاضمحلال لبعض المفردات بصورة كاملة» 
بالإضافة إلى التعرف على مصادر تلك المفردات ومغزاها. 
؟ - نطاق ذخيرة ليفاك وطرق جمع المواد اللغوية 

بدأت الإرهاصات الأولى لفكرة ذخيرة ليفاك منذ عام ١۱۹۹ء‏ ومع 
حلول عام ١197‏ بدأ التخطيط الفعلي لها بعد الحصول على التمويل اللازم 
لبنائها. ca,‏ الخطوات التنفيذية لذلك في جمع المادة اللغوية عن طريق 
اختيار مواد صحفية صادرة في يوم واحد في المناطق اللغوية الخمس: هونج 
كونج» ومكاوء وشنغهاي؛ وسنغافورة» وتايوان» على أن يتم جمع المادة مرة 
كل أربعة أيام. تضم المادة المقالات الافتتاحية» وجميع الأخبار والمقالات في 
الطبعة الأولى» والكتابات والمناقشات الخاصة بالشئون الدولية والمحلية» 
على أن يكون مُجْمَل ما يتم جمعه كل يوم في حدود عشرين ألف رمز 
صيني. وفي العامين من شهر يوليو ١135‏ حتى يونيو ۱۹۹۷ وصل حجم 
المادة التي جُمعت لذخيرة ليفاك على التوالي ALEOV 5 choy WAV‏ 


رمزا. 
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۳- التمييز الآلي للكلمات وبناء الذخيرة اللغوية 

الهدف الأساس من بناء ذخيرة ليفاك هو عمل تحليل للمفردات؛ لذلك . 
فقد كانت المَهَمّة الأولى في عملية بناء الذخيرة هي عمل تمييز آلي لحدود 
الكلمات داخل الذخيرةء وقد استخدمت ليفاك منهجية أقصى طول لتَجَمُع 
الرموز في تمييز حدود الكلمات الصينية؛ حيث يقوم الحاسب بعمل التقسيم 
الآلي للمفردات في البداية على أساسهاء بالإضافة إلى إضافة بعض العلامات 
بصورة آلية إلى عدد من الكلمات الخاصة (مثل الأرقام» وأسماء الأشخاص» 
وأسماء الأماكن) وذلك لتسهيل عملية الاستخدام والتحليل فيما بعد. وقد 
وصلت دقة التمييز إلى ما يزيد عن نسبة ©74. وبعد ذلك يتم عمل مراجعة 
باستخدام العنصر البشري لنتيجة التمييزء ويكون ذلك من خلال خطوتين 
رئيستين: أولاً: عمل فحص لجميع النصوص التي تم عمل تمييز لكلماتها 
وتصويبهاء ثم استخراج قائمة تضم جميع المفردات المكوّنة للذخيرة بصورة 
آلية؛ ثانيًا: فحص القائمة ومراجعتها لاكتشاف ما إذا كانت هناك مفردات قد 
تم تمييزها بصورة غير مناسبة»؛ وفي النهاية يتم إدراج هذه المفردات في 
معجم ليفاك؛ وذلك من أجل رفع مستوى دقة البرنامج الذي يقوم بتمييز 
المفردات في ذخيرة ليفاك. 

أما المقالات التي يقوم بمراجعتها العنصر البشريء فيتم عمل قراءة 
آلية لها بعد ذلك باستخدام الحاسب الآلي» وتستخدم المعلومات التي يتم 
الحصول عليها في بناء ذخيرة ليفاك. وبالإضافة إلى تسجيل جميع المفردات» 
يتم تسجيل المنطقة التي وردت منهاء وتاريخ النشرء بالإضافة إلى المعلومات 
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الأخرى التي لها فائدة؛ مثل النطق الصيني القياسيء والنطق المحلي لها. 
ومن أجل تسهيل عملية الاستعلام داخل المواد التي تم جمعهاء تم تدوين 
جميع محتويات النصوص وعناوينها داخل الذخيرة اللغوية. وبالإضافة إلى 
ذلك: فقد تم تسجيل المكانء والتاريخ؛ والفقرة: والجملة وموقع ظهور الكلمة 
داخل الجملة وما إلى ذلك؛ وذلك من أجل زيادة سرعة البحث والتنقيب عن 
البيانات داخل الذخيرة بالإضافة إلى تصميم برمجية استعلام سريعة وشاملة 
عن نصوص الذخيرة. 

وقد قدمت برمجية الاستعلام بذخيرة ليفاك إمكانات الاستعلام التالية: 

أ) الاستعلام بالكلمة 

حيث تكون نتيجة الاستعلام إظهار خصائص الكلمة بما في ذلك النطق 
القياسي ونطقها الدارج» بالإضافة إلى تقديم شرح لها باللغة الإنجليزيةء مع 
إظهار المعلومات الإحصائية الخاصة بها مثل عدد مرات ظهور هذه المفردة 
في كل منطقة لغوية من مناطق الذخيرة الخمس؛ وإدراج الكلمات المقابلةء 
بمعنى إظهار مقابلات الكلمة في كل منطقة من مناطق الذخيرة. 

ب) الاستعلام بالنص 

السماح للمستخدم بالاستعلام باستخدام كلمةء أو جزء من AUS‏ أو نوع 
من الأنواع النحوية للكلماتء أو النطق الصيني القياسي أو النطق الدارج؛ 
بحيث تقترن أدوات الاستعلام تلك بمجموعة أخرى من الشروط المرتبطة؛: 
وتكون نتيجة الاستعلام استخراج الجمل التي تنطبق عليها شروط الاستعلام. , 
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ويمكن الاستعلام وفقًا لأربعة معايير هي: استعراض الكلمة المطلوب البحث 
عنها ومعها الكلمات المرافقة قبلها وبعدها بعدد معين من الكلمات؛ 
واستعراض التعبيرات اللغوية التي تحتوي كلمات معينةء واستعراض الجمل 
التي تحتوي كلمات معينةء بالإضافة إلى استعراض عناوين النصوص التي 
رابعًا: الذخيرة اللغوية لدراسات اللغة الصينية الحديثة 

تم اعتماد الذخيرة اللغوية لدراسات اللغة الصينية الحديثة باعتبارها 
المشروع العلمئ لقطاع العلوم الاجتماعية والإنسانية في الخطة الخمسية 
الثامنة لمجلس الدولة الصيني» وفي الوقت ذاته تم اعتمادها باعتبارها 
المشروع العلمي الرئيس لجامعة اللغات والثقافة في إطار الخطة الخمسية 
الثامنة للحكومة الصينية. 

وكان الهدف البحثي من ذخيرة دراسات اللغة الصينية الحديثة هر 
تقديم قاعدة بحث لغوية أساسية ذات نطاق واسع يستخدمها العاملون في حقل 
معالجة المعلومات باللغة الصينية» وتعليم اللغة الصينية» والعاملون في حقل 
الدراسات اللغوية الصينية؛ وذلك من أجل دفع الدراسات اللغوية القائمة على 
اللغة الصينية إلى مزيد من التعمق!145, : 
-١‏ اختيار المادة اللغوية وجمع العينات 


تم تقسيم العمل في الذخيرة اللغوية للغة الصينية الحديثة إلى مستويين» 
المستوى الأول هو جمع ذخيرة لغوية خام يصل حجمها إلى ٠١‏ مليون رمز 
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صيني» المستوى الثاني هو جمع ذخيرة لغوية سبق معالجتها تصل إلى ۲ 
مليون رمز صينيء أي ذخيرة لغوية تم عمل تمييز لحدود كلماتها وعمل 
ترميز لأنواع الكلمات بها. 

وقد كان هناك مستويان لجمع المادة اللغوية للذخيرة. 

المستوى الأول يتم عن طريق انتقاء مادة لغوية خام تصل إلى 7٠‏ 
مليون رمز صيني من بين مادة يصل حجمها إلى 5٠‏ مليون رمز. 

وقد كانت قواعد اختيار العينات تتم على أساس الوضع في الاعتبار 
مدى اكتمال النص وطوله وغير ذلك من الاعتبارات» على سبيل المثال بعد 
النصوص التي يقل حجمها عن ألف رمزء وأيضًا النصوص غير المكتملة. 

وقد اشتملت المادة الأساسية التي تم اختيار العينات منهاء التي تصل 
إلى ٠١‏ مليون رمز على النصوص الإخبارية للصين في الفترة مسن عام 
15517 او 3457 Ne Ua‏ التشنحفية لتشبعة 
الصين الجديدة شين خوا لعام ١15:‏ بحجم عشرة ملايين وخمسمائة ألف 
رمزء والنصوص الكاملة لجريدة الشعب اليومية لعام ١5315‏ بما يقرب من 
٠‏ مليون رمز. 

هذا بالإضافة إلى مختارات للكتب من مقتنيات المكتبات العامة الصينية 
. في تخصص الأدب» ومختارات من اللغة الشفهية تصل إلى ۲ مليون 
وخمسمائة ألف رمز تم إدخالها إلى الحاسب الآلي عن طريق العنصر البشري. 

وقد كانت القواعد التي اتبعّت في اختيار ذخيرة العشرين مليون رمز 
من بين الحجم الإجمالي لتلك الذخيرة كما يلي: 
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(جريدة الشعب اليومية) (عام ۹44 بالكامل) ۰ 1 «oy‏ 

(الأخبار الصينية) (۱۹۹۳-۱۹۹۲) ٠,٠٠٠,٠٠١‏ رمز. 

المؤلفات العلمية وغيرها ٠,٠٠٠,٠٠١‏ رمز. 

الأعمال الأدبية (عينات تم إدخالها يدويًا) ٠,٠٠٠,٠٠٠‏ رمز. 

(من بينها نصوص روائية تصل إلى مليون رمز» ونصوص نثرية 
تصل إلى ٠١‏ ألف رمزء ونصوص في مجال الأدب التقريري تصل إلى 
٠‏ ألف رمز). 

مواد شفهية قياسية (عينات تم إدخالها يدويًا) مليون رمز. 

(من بينها نصوص مسرحية تصل إلى ٠٠١‏ ألف رمزء ومونولوجات 
تشمل مونولوجًا فرديّاء وخطبًاء وحوارات ثنائية» وقصصنًا بما يصل إلى 
Eee‏ ألف رمز). 

ومن الأرقام سالفة الذكر يمكننا ملاحظة أن المواد الصحفية في 
المستوى الأول قد وصلت إلى 9076» والمؤلفات العلمية وصلت إلى 
5 , والأعمال الأدبية إلى 901,5» والمواد الشفهية إلى ©90؟. 

أما المستوى الثاني فقد تم استبعاد الأخبار الصينية والمؤلفات العلمية 
منه؛ حيث تم انتقاؤه بشكل عشوائي وفقا لنسب معينة قد سبق الاتفاق عليها 
في حدود مليوني رمز صيني من مادة لغوية يصل إجمالي حجمها إلى عشرة 
ملايين ومائتين وخمسين ألف رمز. وقد تم التفكير في (جريدة الشعب 
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اليومية) باعتبارها جريدة عامة غنية بالمواد اللغوية من حيث تنوع 
الموضوعات» على عكس الجزء الباقي من المادة اللغويةء الذي يصل إلى ۷ 
ملايين وخمسمائة ألف رمزء التي تتميز بوحدة الموضوع والمضمون» 
بالإضافة إلى أن تلك الموضوعات يمثلها نسبة معينة في محتوى (جريدة 
الشعب اليومية). aes‏ تحديد نسب النصوص» تم مراعاة كلا من الموضوع 
والمضمون؛ حيث صنفت النصوص وفقا لهذين المعيارين. وعند التفكير في 
نسبة تمثيل كل نوع من النصوص داخل الذخيرة»ء تم الاهتمام بالجمع بين 
اكتمال النص ومبدأ النقطة المركزية التي تدور حولها موضوعات 
النصوص. على سبيل المثال» إذا تحدثنا عن الموضوع؛ فإن موضوعات 
السياسة» والاقتصادء والأدب يكون لهما نسبة تمثيل أعلى من التاريخ 
والجغرافيا والشئون العسكرية وغيرها من المجالات التي يكون التمثيل 
اللغوي لها ضعيفًا إلى حد ما لأنها تبعد عن الموضوع المركزي الذي 
تتمحور حوله نصوص الذخيرة. أما إذا تحدثنا من ناحية المضمون فإن 
السرد والنقاش يكون التمثيل اللغوي لهما كبيرا جذدّاء أما الشرح والتطبيق 
فتكون النسبة على العكس من ذلك ضئيلة. وعلى ذلك تكون خطوات جمع 
العينات كما يلي: 

-١‏ بناء قاعدة بيانات لخصائص النصوص؛ تضم خصائص 
النصوصء وعنوان النصء وعدد الرموز المكونة له: ومكان 
النشرء واسم الكتاب أو الجريدة» ودار النشرء بالإضافة إلى تاريخ 
النشرء وتصنيف الموضو ع» وأسلوب الكتابة. 


174 


Ay gelll Boldt ay 5.94 day yb i 

۳- الاختيار العشوائي للعينات. وللتعرف على نتيجة اختيار العينات . 

بالمرحلة الثانية انظر الجدول ١7-7‏ والجدولٍ ١7-7‏ والجدول 
Ey‏ 


جدول Y)‏ -؟١):‏ : توزيع لكيه داخل المادة التحريرية 
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جدول (14-9): : توزيع الأساليب الغوية داخل المادة ة الشفهية 





























وقد تم حمل تهيئة أولية للمادة اللغوية قبل معالجتها وذلك بالنسبة إلى 
المواد المندرجة في إطار المستوى الثاني. ففي البداية تم تنقية جميع 
النصوص» على سبيل المثال تنقية النصوص المسرحية من الأجزاء التي 
تخرج عن نطاق الحوارء هذا بالإضافة إلى حذف المعلومات المتعلقة 
بالطبعات في العينات الأخرى من النصوصء ثم إضافة علامات تخص كل 
سينك سيت كماد القسية وكا اتسيف المو شو ع 
۲- معالجة الذخيرة 

إذا أردنا عمل ترميز للذخائر اللغوية الصينية فلا بد أن تكون البداية 
بتمييز حدود الكلمات داخل الذخيرة. حتى يمكن جعل عملية التقسيم تحظضى 
بموثوقية علمية» وضمان أن تكون عملية التقسيم موحدة» فقد تم وضع معيار 
على مستوى عال من الدقة والوضوح. بالإضافة إلى إمكانية التطبيق عمليا. 
ففي البداية» تم الاستعانة بعدد مائتي لف رمق من الومية الصينية Tall‏ 4 
للاستخدام الغوي من حيث الشمول والانتشارء وتم البحث عن الرموز التي 
کین یا 2B cpl) Uy ULI CLUS‏ صل تل متسد لبا ات 
لتلك الكلمات المركبة من عدد من الرموزء بما في ذلك طريقة التركيب 
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الداخلي؛ (هل يمكن للمكونات الداخلة في التركيب أن paia‏ منفردة» ونوع 
العلاقة بين العناصر المكونة للكلمةء ووظيفة تلك المكونات» وهل يمكن 
للعناصر الداخلية أن تتوسعء وما إلى ذلك): والوظيفة العامة للكلمة» وطبيعة 
التركيب الدلالي» وتركيب الوحدات الصوتية» والعناصر الأسلوبية وغير ذلك 
من المجالات. وعلى هذا الأساس يتم التأكد من فاعلية المنهجية والنظرية 
المتبعة في عملية تمييز حدود الكلمات» إلى أن نصل في النهاية إلى تحديد 
قواعد تقسيم النصوص الصينية إلى كلمات. وتتضح القواعد المُتبعة في تقسيم 
النصوص إلى كلمات من خلال الجوانب الثلاثة التالية: | 

-١‏ الكلمة لها حدود دلالية ونحوية. 

-1١‏ الحدود التي يتم تقسيم الكلمات على أساسها ليست مطلقة. 

*- ينبغي مراعاة التمييز بين المستويات المختلفة للمادة اللغوية. وفي 

النهاية يتم التوصل إلى الحكم عما إذا كانت الوحدة اللغوية المفردة 
تدخل ضمن إطار كلمة مركبة أم أنها تمثل وحدة مستقلة بذاتها. ' 

وعلى هذا الأساس» يتم عمل ترميز نحوي للكلمات المكونة للمسستوئ 
الثاني من ذخيرة دراسات اللغة الصينية الحديثة. وبعد الاطلاع على نتائج 
الدراسات في حقل اللسائيات الصيئيةء ونتائج الأبحاث المتعلقة بترميز 
الكلمات الصيتية في Jia‏ اللغويات الحاسوبية الصينيةء تم الاستعانة بقاعدتين 
أساسيتين في عملية تحديد نوع الكلمات الصينيةء الأولى تحديد نوع الكلمة 
بصورة كاملة بناء على وظيفتها النحوية داخل الجملة. والثانية تحديد نوع 
الكلمة بشكل تقريبي من حيث درجة الدقة. 
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ومن أجل ذلك» تم استخدام نظام متعدد المستويات لتحديد نوع الكلمة 

على سبييل المثال» أول مستوى من مستويات ترميز الاسم هو استخدام 
الرمز n"‏ ثم يتم تصنيف الاسم بعد ذلك إلى خمسة أنواع فرعية هي اسم 
العلم» والاسم العام؛ واسم الزمانء واسم المكان؛ واسم الموقع. 

وقد تم تصميم مجموعة من الرموز الخاصة لترميز عدد ۸١‏ نوعا من 
أنواع الكلمات الصينية. 

ومن أجل إتمام عملية ترميز المادة اللغوية استخدمت أدوات الترميز 
وتمييز الكلمات المتاحة في نظام 0018. وبعد انتهاء الترميز الآلي» تم عمل 
مراجعة بالمجهود البشري لنتيجة ترميز مليوني رمز صيني. ومن أجل تهيئة 
ذخيرة الدراسات الصينية الحديثة لخدمة الباحثين في حقل اللغويات الصينيةء 
تم تطوير واجهة تطبيقية بها إمكانات بناء ذخيرة» واستعلام» وإحصاء» وما 
إلى ذلك. 

باستخدام المستوى الأول من الذخيرة يمكن عمل استعلام عن سلاسل . 
الرموز الواردة في الذخيرة» وباستخدام المستوى الثاني من الذخيرة يمكن 
البحث باستخدام الكلمة أو نوع الكلمة أو المعلومات الإحصائية» على سبيل 
المثال الاستعلام عن الجمل التي تحتوي نوعًا معينا من الكلمات» ويمكن ٠‏ 
Gad‏ الاستعلام عن نوع معين من التعبيرات اللغويةء بالإضافة إلى عرض 
النتيجة بأكثر من صيغة. 
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خامسا: الذخيرة اللغوية الصينية ذات المعالجة الدقيقة 

الذخيرة اللغوية الصينية المُعَالجة بدقة هي مشروع مركزي تم تمويله 
من الحكومة الصينية في مجال العلوم الطبيعية؛ وعنوانه الفرعي هو 
Ob Es‏ البحث في الذخائر اللغوية ومنهجياته وأدواته٠‏ والهدف من هذا 
العنوان الفرعي هو إنشاء سلسلة من الذخائر اللغوية الصينية التي تمت ٠‏ 
معالجتها جيداء والهدف من هذه السلسلة من الذخائر هو التوصل إلى إصدار 
عدة مؤلفات تحمل العناوين الآتية: (توحيد معياري لطرق تمييز الكلمات في 
ذخائر اللغة الصينية الحديثة)ء و(توحيد معياري لترميز الكلمات في اللغة 
الصينية الحديثة)» و(مبادئ اختيار المادة اللغوية وتوزيعها داخل الذخيرة). 
وفي النهاية» تم الحصول على ذخيرة متوازنة مكونة من مليوني رمز صيني 
1 (لا تشمل علامات الترقيم)ء وتم إجراء عمليات تمييز لحدود الكلمات بداخلهاء 

وعمل ترميز لأنواع الكلمات وبعض المعلومات النحوية» هذا بالإضافة إلى 

ذخيرة خام مُعتمدة يصل حجمها إلى ٠٠١‏ مليون رمز صيني. 

والنتيجة التي حققتها هذه الذخيرة يمكن أن تكون واجهة تطبيقية يُعْتَمَد 
عليها وتتمتع بموثوقية في الدراسات المتعلقة بالنحو والصرف في اللغة الصينية 
GS Dey inal‏ يكون لها مغزى مهمّ في الدراسات العلمية القائمة على تعليم 
اللغة الصينيةء واللسانيات الصينيةء ومعالجة المعلومات باللغة الصينية. 


١‏ - اختيار المادة اللغوية للذخيرة 
أ) المبادئ المُتبعة في اختيار المادة اللغوية 


تم الالتزام بالمبادئ التالية فى أثناء اختيار المادة اللغوية 
Gone‏ في J‏ 
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أن تكون المادة التي يتم اختيارها تنتمي إلى فترة تسعينيات القرن 
العشرين (مع جزء صغير في فترة الثمانينيات) بحيث يمكنها أن تعكس 
ملامح اللغة الصينية المعاصرة. 

أن تكون وحدة اختيار المادة اللغوية هي النصوص الكاملة؛ وذلك من 
أجل الحفاظ على معلومات النص كاملة. 

أن يكون المعيار الأساسي في جمع المادة هو النصوص موزعة على 
الأساليب اللغوية المختلفة» والمعيار الفرعي هو التوزيع حسب المجالات؛ 
حيث إن الأسلوب اللغوي يسبق المجال. اللغوي من حيث الأهمية. 

أن تركز المادة اللغوية التي تم جمعها على المستوى التحريري» 
بالإضافة إلى المواد الشفهية التي يمكن تدوينها في كتب» مثل نصوص 
المسرح» والتسجيل الصوتي للحوارات» والتسجيل الصوتي للمحاضرات وما 
إلى ذلك. وقد تم تمثيل المواد اللغوية الأدبية بنسبة أكبرء حتى يمكن زيادة 
مقدار اللغة الشفهية ولغة الاستعمال اليومي بصورة مناسبة؛ وذلك من أجل 
. تجنب أن تتجه الذخيرة إلى الاقتصار على اللغة التحريرية البحتة. 

ألا تتضمن المواد اللغوية مطبوعات من مناطق هونج كونج» 
ومكاوء وتايوان. 

ب) تفاصيل توزيع المادة اللغوية 

تم تقسيم المادة اللغوية حسب الأسلوب اللغوي إلى أربعة أنواع من 
النصوص هي: نصوص أدبية» ونصوص صحفية؛ ونصوص علمية 
ونصوص تطبيقية» وقد وصل حجم تلك النصوص إلى مليوني رمز صيني. 
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وقد تم توزيع كل نوع من تلك النصوص كما يلي: 


الأدب: 
(١‏ الروايات (ويشمل القصص العامة والقصص العاطفيةء وقصص 
Gamal y «gab Sha‏ البوليسية): 


؟) النثر (ويشمل نصوصا متفرقة» ومقالات قصيرة متنوعة وما إلى ذلك). 
*) المذكرات (وتشمل السير الذاتية). 

£( أدب التقارير. 

5) المسرحيات (وتشمل الحوارات؛ والخطب). 

الأخبار: 

)١‏ التقارير الإخبارية (وتشمل السياسة: والاقتقصادء والشئون 


العسكرية» والصناعة Act jl;‏ والتجارة» والعلوم والتكنولوجياء 
والرياضة وغير ذلك من المجالات). 


”) النقد الاجتماعي والتعليقات. 

(人‏ الحياة الاجتماعية والترفيه (وتشمل السياحةء والطهوء والأزياء 
والغنون» والعادات وغيرها). 

المؤلفات العلمية (وتشمل العلوم الاجتماعية والإنسانيات). 


النصوص الوظيفية (بما في ذلك الإعلاناتء والإخطارات»: 


والمراسلات» والتقاريرء والعقودء ومذكرات التفاهم»› وكتالوجات المنتجات.» 
وغير ذلك من المطبوعات غير الرسمية). 
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للاطلاع على التوزيع التفصيلي للمادة اللغوية انظر الجدولين ٠١-۲‏ 
ATY‏ 

جدول (؟١-15١):‏ معلومات إحصائية عن توزيع المادة 
للغوية بالذخيرة الصينية ذات المعالجة الدقيقة 
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؟ - نطاق تمييز الكلمات 

عند وضع حدود الكلمات الصينيةء تم مراعاة النقطتين التاليتين: 

أ- الاستقرار على منهجية وضع حدود الكلمات على أساس الأبحاث 
واسعة النطاق التي أجريت على تمييز الكلمات الصينية. 

-١‏ الاستفادة من النتائج السابقة في هذا المجالء؛ وعلى الأخص 
الاستعانة بنتائج الأبحاث في مجال اللغويات الحاسوبية واللغويات 
الصينية؛ والسعي قدر الإمكان إلى التوافق مع المعايير الصينية 
القومية التي تم نشرها من قبل فيما يتعلق بهذا الأمر. ولكن مع 
مراعاة أن يكون لنظام التمييز الجديد سماته الخاصة. 

- عمل دراسة متخصصة عن مجموعة الرموز الخاصة التي تحمل 
لبسا لغويًا في عملية التمييز. وقد تمت مراجعة النتائج التي تصل 
إلى مليون وخمسمائة ألف رمز صيني من خلال العنصر البشري 
عن طريق سبعة طلاب للدراسات العليا؛ حيث تم رصد سبعمائة 
وعشر ألف رمز صيني من بين العدد الإجمالي للرموز لم يحدث 
لها تمييز بشكل مُوَمّد. وقد تم عمل تحليل يدوي لهذه الوحدات 
اللغوية التي الْتَبَست على الآلة. ومن نتيجة الأبحاث نكتشف أن عدم 
وضوح الحذوة الفاضلة بين الكلمات والتعيزات Sh‏ 
أساسًا في عدم وضوح الحدود بين الكلمات ثنائية وثلاثية المقطع 
في اللغة الصينيةء أما من ناحية الوظيفة النحوية فيتركز عدم 
الوضوح بشكل أساسي في التراكيب الاسمية والفعلية. | 7 
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- اتباع منهجية تطبيق عمليات التمييز بالتوازي مع إجراء 
التصحيحات على النتائج» بغرض التوصل إلى معيار دقيق لتمييز 
الكلمات يتمتع بتغطية أكثر شمولاً. وقد كان تحديد المعايير القياسية 
اديز اللات لبت بستورة صما يل مت ان نى 
أساس التوزيع الحقيقي للمادة اللغوية داخل البيئة اللغوية الواقعية. 
ب- تبني الإجراءات الضرورية لضمان تمييز قياسي وموحد لتمييز 
الكلمات. i‏ 
-١‏ اتخاذ قرارات مُلّزمة بشأن الوحدات اللغوية التي تحمل Cad‏ لغويًا 
لمدة طويلة بين المتخصصين. على سبيل المثال» التركيب الإضافي 
المكون من رمزين إلى أربع رموز صينية بالصيغة "اسم + aul‏ 3 
و'قعل + اسم" إذا كان طول أحد عناصره رما و لايتم 
تقطيعه إلى وحدات أقل. 
؟- العديد من العناصر الدقيقة المكوّنة للمعيار ستخدم خصيصى 
باعتبارها كلمة أو عدة كلمات. عل سبيل المثال الرمز SE"‏ الذي 
يعني 'نصف" عندما يعبر عن عدد مستقل يتم تمييزه على أساس أنه 
كلمة» مثل: 
WE/ 斤‏ 
一 / 斤 / 半‏ 


FT" Als (1)‏ وحدة قياس صينية للوزن تساوي 2٠٠‏ جرام. (المترجم) 
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بمعنى: 

نصف / نصف كيلو (ربع كيلو) 

واحد / نصف كيلو / نصف (كليو إلا ربع) 

إلا أن الوحدات التالية التي تحتوى الرمز "كد" يتم تمييزها على أنها 
كلمات متعددة المقطع؛ ولا يمكن تقسيمها إلى وحدات أصغر خلافا للمشالين 
السابقين» مثل: 

一 半 儿 、 多 半 儿 、 两 半 儿 、 大 半 儿 、 一 多 半 儿 、 一 大 半 儿 。 
ترميز تصنيف الكلمات‎ le 

إن المعايير التي تم اعتمادها لترميز تصنيف الكلمات تشمل عدد 114 
علامةء من بينها عدد ٩١‏ علامة لترميز تصنيف الكلمات» وعدد ۲١‏ علامة 
لترميز علامات الترقيم. وقد تم اتباع نظام متعدد المستويات لاستخدام 
العلامات الخمس والتسعين لترميز تصنيف الكلمات؛ على أن يكون أكبر قدر 
من المستويات هو ثلاثة مستويات» مثل: 'إمه" فالعلامة "2" تمثل المستوى 
الأعلى» وتشير إلى الاسم» أما العلامة ”م” فتشير إلى المستوى الأوسط وتعني 
تصنيفا فرعيًا للاسم وهو اسم العلم» أما العلامة ۴" فتشير إلى المستوى الثالث» 
وتعبر عن اسم علم أجنبي» يختلف عن أسماء الأعلام اليابانية والكورية 
والصينية التي تتبع الأسلوب الصيني في تسمية الأعلام الشخصية. 

ويستعين المستوى الأعلى من العلامات عدد ۲۲ علامةء منها العلامة 
"5" التي تشير إلى الاسمء والعلامة "”" التي تشير إلى الفعل؛ والعلامة "8ه" 
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التي تشير. إلى الصفةء والعلامة "<" التي تشير إلى الكلمات المعبرة عن 
الحالة» والعلامة "ط" التي تشير إلى التمييزء والعلامة " التي تشير إلى اسم 
الزمان» والعلامة "5" التي تشير إلى اسم المكان» والعلامة ۴" التي تشير إلى 
اسم الموضعء والعلامة "5” التي تشير إلى الأرقام» والعلامة "4" التي تشير 
إلى الكلمات الكميةء والعلامة "4" التي تشير إلى الظرفء والعلامة "©" التي 
شیر إلى الضمائرء والعلامة "0" التي تشير إلى الكلمات الصوتية؛ والعلامة 
"e‏ التي تشير إلى كلمات التعجب» والعلامة "٠"‏ التي تشير إلى حروف 
العطف» والعلامة "م" التي تڈ et en ee ee‏ و 
إلى الكلمات المساعدة» والعلامة "ل" التي تشير إلى كلمات اللهجةء والعلامة 
التي تشير إلى الكلمات الاعتراضيةء والعلامة "ل" التي تشير إلى الأمثالء 
والعلامة "6 التي تشير إلى اللواحق» والعلامة "×" التي تشير إلى الأرقام 
العربية والحروف الإنجليزية. 
وقد تميزت المعايير المُنْتَخْدَمة في ترميز تصنيف الكلمات الصينية 
بالخصائص التالية: 
أ) الاهتمام الشديد بالنقاط الصعبة في ترميز تصنيف الكلمات. فعندما 
يتم وضع رمز لنوع الكلمة داخل الذخيرة يمكن بصورة عامة 
مواجهة الحالات التالية: 
-١‏ الكلمات التي تتمتع بثبوت المعنى وأحادية الوظيفة النحوية لا 
يحدث تجاهها ازدواج في وضع الترميزء ويصبح من السهل 
الاستدلال على الفئة التي تنتمي إليها ووضع الرمز الخاص بها. 
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-١‏ الكلمات ذات الازدواجية النحوية التي لها وظائف نحوية مختلفة؛ 
التي تمثل اختلافات دلالية كبيرة (بما في ذلك الكلمات المتفقة فسي 
الشكل) يمكن أن ينطبق عليها معياران أو أكثر من معايير الترميز. 

-٣‏ هناك قدر من الكلمات على الرغم من عدم اتفاقها في الوظيفة 
<< النحويةء فإن هناك اختلافا حول مدى اعتبارها كلمات ثنائية 

التصنيف. 


-٤‏ يمكن إدراج الكلمة تحت تصنيغين أو أكثر من وجهة النظر 
النحوية أو الدلالية؛ ولكن من الناحية العملية لا يمكن أن يتم 
إدراجها تحت تصنيفين؛ مثل الصفات والأفعال اللازمة. 

5- الكلمات التي لا يوجد اتفاق حول وظيفتها النحوية» ومن الصعب 
العثور على تصنيف مناسب لها. ۰ 

1- فئات أخرىء بما في ذلك المشكلات التي تنشأ من تمييز الكلمات» 
والاستخدام المؤقت للكلمات وما إلى ذلك. وتتركز الصعوبات 
الخاصة بترميز أنواع الكلمات بشكل أساسي في النقاط الأربع 
الأخيرة؛ مثل الصفات وحدود الأفعال اللازمةء والتمييز بين كل من 
الكلمات والظروفء وبين كل من الأسماءء والأفعال» والصفات» 
وغير ذلك من مشاكل تمييز الأنواع النحوية للكلمات. لأنه عند 
وضع المعايير القياسية للترميز يتم الانتباه بشدة إلى هذه الأنواع. 

ب) هناك جزء من الكلمات تم عمل ترميز متعدد المستويات لهاء 
الأمر الذي يسهل عملية تقديم المعلومات الخاصة بترميز تصنيف 
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الكلمات» تلك المتعلقة بعدد من الدراسات الخاصةء بالإضافة إلى 
إمكانية إجراء بحوث متخصصة عن بعض أنواع الكلمات التي لها 
تمثيل ضعيف داخل الذخيرة. 

ج) البحث الدقيق عن أسماء الأعلام: وبصورة خاصة أسماء 
الأشخاص؛ حيث يتم تمييزها بصورة دقيقة» وتقديم معلومات وافية 
وغنية عن الاسم وطرق التعرف عليه. | 

د) الترميز الجزئي للمعلومات النحوية. تتركز تلك المعلومات بصورة 
أساسية في الجزء المتعلق بالفعل داخل الجملة (فالصفة التي يكون 
لها موصوف يتم ترميزها على أنها فعل). وهكذا يمكن عمل 
دراسات متخصصة متعلقة بالفعل مثل بعض التعبيرات اللغوية التي 
يمكن التعامل معها من زاوية التعدي أو اللزوم؛ ويمكن أيضًا عمل 
بعض الدراسات المتعلقة ببعض الأنماط الخاصة للجمل. 

ه) إعطاء علامات خاصة لبعض الكلمات التي لها نسبة تكرار 
مرتفعةء من أجل تسهيل عمل دراسات متخصصة حولها. 


4 - ضمان مستوى الجودة في معالجة الذخيرة الصينية 


إن مرحلة معالجة الذخيرة من حيث تمييز حدود الكلمات وترميزها 


نحويًا يتم تتفيذها آليّا؛ ولكن على أساس أن يتم عمل مراجعة بالطاقة البشرية 
لنتيجة التمييز والترميز؛ حيث تَعْتَبّر المراجعة البشرية للنتيجة من أهم 
مراحل العمل في الذخائر اللغوية بصورة عامة. 
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إن المراجعة البشرية لنتيجة معالجة الذخائر اللغوية يتضمن مجالين 
أساسيين هما: عملية تمييز الكلمات وعملية تحديد أنواع الكلمات. فأكثر 
المشكلات ظهور! في مرحلة تمييز الكلمات في الذخيرة هي عدم التوحيد في 
عملية تمييز الكلمات التي تتكون من مقاطع متشابهةء أما أكثر المشكلات 
ظهورا في عملية ترميز الأنواع النحوية الكلمات فتتمثل في أن يكون هناك 
تشابه تام بين الشكل والوظيفة النحوية ومعنى الكلمةء ويؤدي ذلك إلى عدم 
توحيد في عملية الترميز. 

وهذا النوع من المشكلات يتم مراجعته على مستويات منفصلة وفقا 
لطبيعة كل مشكلةء بالإضافة إلى أن كل مرحلة يتم فيها اتباع وسائل مختلفة 
بهدف الوصول إلى قرار موحد بشأنها. 
١‏ - مراجعة تمييز الكلمات 

تنقسم عملية مراجعة تمييز الكلمات إلى مرحلتين: الأولى يتم فيها 
قراءة تتبعية للنص» يصاحبها قراءة تتبعية للمفردات التي تم تمييزهاء 
والخطوة الثانية يتم فيها كتابة برمجية استعلام عن الكلمات المتفقة من حيث 
التقسيم» بغرض استخراج جميع الحالات التي تمثل لبسا في عملية التمييزء 
واستخدام ذلك في عمل مراجعة تفاعلية مع قائمة المفردات المستخرجة. 
* - مراجعة الترميز النحوي للكلمات 

تنقسم عملية مراجعة الترميز النحوي للكلمات Gal‏ إلى مرحلتين» 
المرحلة الأولى يُتبّع فيها عملية القراءة التتبعية للنص بالتوازي مع القراءة 


190 


التتبعية للكلمات وترميزها. أما المرحلة الثانية فبغرض التغلب على مشكلة 
التوحيد في معايير تمييز الكلمات في أثناء مراجعة نتيجة تمييز الكلمات» فإن 
فريق إنشاء الذخيرة كان في حاجة إلى تكوين قائمة تضم جميع الكلمات 
المكونة للذخيرة وعلامات الترميز المستخدمة؛ وذلك من أجل عمل مراجعة 
تفاعيلة لمراجعة نتيجة ترميز أنواع الكلمات. وبذلك يمكن تجنب وضع 
علامات مختلفة للوحدات اللغوية نفسها. 

وهذه الذخيرة من المنتظر رفعها على شبكة المعلومات لخدمة أكبر 


عدد من الباحثين. 
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total bit) tant elf 
معالجة الذخائر اللغوية وتقنفيات إدارقها‎ 
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الفصل الأول 
الاستعلام داخل الذخائر اللغوية وتطبيقاته 


بعد الانتهاء من بناء الذخيرة اللغوية» يتم عرضها للاستخدام من قبل 
جميع الباحثين؛ بغرض تمكينهم من التعامل مع مضمون الذخيرة» وإجراء 
عمليات التحليل للظواهر اللغوية الواقعية الموجودة في مادتها اللغوية. لذلك 
فإن أبسط ما يمكن أن تُقدمه الذخيرة اللغوية للمستخدم هو أدوات الاستعلام 
عن المواد اللغوية داخل الذخيرة. 


أولاً: الاستعلام الإحصائي السياقي عن الكلمات 

عادة ما تلجأ الذخائر اللغوية المُمَيْكنة إلى أسلوب الاستعلام الإحصائي 
السياقي aail "concordance" ALKI ge‏ المعلومات الإحصائية المتعلقة 
بالسياقات التي تظهر فيها كلمة معينة داخل متن الذخيرة. وتسّجّل البرامج 
المختصة بالاستعلام الإحصائي عن سياقات الكلمات موقع الكلمة موضع 
البحث في كل مرة ظهرت فيها داخل الذخيرة» cling‏ على ذلك يمكن تقديم 
المعلومات السياقية المتعلقة بتلك الكلمة. وهذه المعلومات يمكن أن تظهر 
مباشرة على شاشة الحاسب أو يتم حفظها في ملف معين. وهذا الملف الذي 
يثم حفظه oils‏ عليه اسم ملف الإحصاء السياقي للكلمات " concordance‏ 
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وقبّل عمل استعلام إحصائي عن سياقات الكلمات» تكون هناك حاجة 
لبناء فهرس لكل كلمة من كلمات الذخيرة: يُسَجّل في هذا الفهرس موقع هذه 
الكلمة داخل النص في كل مرة من مرات ورودهاء ثم يتم إعادة فهرسة ملف 
البيانات هذا وفقا للأنماط الجديدة التي يحتويها؛ وذلك من أجل تسهيل عملية 
البحث في داخله؛ كأن يتم بناء الجدول المفهرس لل ذخيرة وفقًا للترتيب 
الأبجدي لكلماتها. وبذلك يُمكننا في أثناء عمل الاستعلام عن سياقات الكلمات» 
الحصول بسهولة عن السياقات التي وردت فيها الكلمة موضع البحث. 

إن أبسط ما يُقدّمه البحث الإحصائي عن سياق الكلمة هو الاستعلام 
بموضع الكلمة؛ حيث يُقذم هذا الاستعلام عرضنا مُفَهْرَسا لموقع الكلمة محل 
البحث في كل مرة وردت فيها. داخل النص» بالإضافة إلى إمكانية تقديم 
إحصائية عن معدل ظهور هذه الكلمة داخل الذخيرة بأكملها. وهناك نوع 
lst Get!‏ الاستعلام السياقي هو الاستعلام عن السياقات التي ترد فيها 
كلمة ما داخل الذخيرة؛ حيث يقنم السياقات التي ترد فيها الكلمة موضع البحث. 
-١‏ الاستعلام عن كلمة مفتاحية داخل السياق 

أهم نوع من أنواع الاستعلامات وأكثرها شيوعًا هو الاستعلام عن 
كلمة مفتاحية داخل السياق "Key Word in context”‏ والذي يطلق عليه 
اختصارا اسم 321810. وفي ذلك الاستعلام تظهر pelted A‏ عنها في 
منتصف كل سطرء وقبلها وبعدها مسافةء ويلي كل مسافة منهما سياق نصي 
بعدد من الكلمات يمكن التحكم في طوله. وفي هذا الأسلوب من أساليب 


a 
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العرض تتراص الكلمات موضع البحث في كل سطر مُكوّنة عمودًا رأسيًا 
ظاهر! للعيان. ويُظهر El Wd lk pe Ce Y= Usa‏ 





of activity and communication 


communication where the is 

activity 

whole process the activity is 

reader in his armchair is 

radio listener his brain is 
man communication through is 


hu 














` halted in time if 


only one of them 













obvios enough the 
nervous 

making continuous 
fast and 

highly active if he 

only a small sub- 
section 





شكل :)١-*(‏ نتيجة البحث السياقي 121710 عن 
“is” duals‏ في اللغة الإنجليزية 
كما يمكن تعديل طول السياق المصاحب للكلمة من جهة اليسار وجهة 
اليمين حسب الحاجة؛ حيث يمكن زيادة أو نقصان عدد 5 كلمات من جهة 
اليمين أو اليسار. وهناك بعض أدوات الاستعلام الحاسوبية يمكنها توسيع ما 
يُعْرض في نتيجة الاستعلام لتستخرج كامل الجملة أو الفقرة التي وردت فيها 
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الكلمة موضع الاستعلام. 


i i‏ للأسطر 

هذا النوع من الاستعلام له عدة أشكال؛ الشكل الأكثر شيوعًا هو: 
رقت Gage Gy de hdd shad‏ يورو لذل التهيرة GAs J‏ 
السطر المُستَعلم عته وفقا للترتيب الأبجدي لكلماته. على سبيل المثالء ترتيب 
نتيجة البحث حسب الترتيب الأبجدي للكلمة التي تأتي يمين الكلمة المفتاحية. 
ل a‏ تستدعيها الكلمة المفتاحية؛ التي 

تغتبر في تلك الحالة هي الكلمة المركزية التي تدور حولها عملية البحث. 
وهناك طريقة ة أخرى للترتيب هي فهرسة الأسطر حسب الترتيب الأبجدي 
لآخر حرف في الكلمة المجاورة للكلمة موضع البحث من جهة اليسار. وما 
إن تكون الكلمة المفتاحية فعلا من حيث التصنيف النحوي» حتى يمكن لهذه 
الطريقة في البحث أن تعثر وبسهولة على الفاعل في كل جملة؛ ومن تم 
يمكن تقديم بعض الخيوط التي من شأنها أن تساعد في التعرف على عملية 
الاقتران الإسنادي وعناوين النصوص. كما يمكن الحصول على الفهرسة 
حسب الكلمات الواقعة يمين الكلمة موضع البحث ويسارها؛ حيث يتم وضع 
الكلمات المصاحبة للكلمة موضع البحث معًا حسب أكثرها تواتراء وفذه 
الطريقة من طرق إظهار نتيجة الاستعلام لها استخدامات عظيمة في 
الدراسات التي تبحث في قواعد التصاحب اللغوي بين الكلمات. 

وبالنسبة إلى الكلمات ذات معدل التكرار الأعلى داخل الذخيرة يمكننا 
أيضًا اللجوء إلى أسلوب الاستعلام من خلال العينات لتقليل نطاق العينات 
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المستخدمة في الاستعلام. على سبيل المثال» عند الاستعلام عن كلمة معينة 
يمكننا ضبط الرقم الاسترشادي للاستعلام على ١٠؛‏ بحيث يتم الاستعلام مرة 
كل عشرة أسطرء وبذلك يمكن أن نقلص نتيجة الاستعلام بنسبة العشر عن 
النتيجة نفسها إذا أَجْرِيّت دون هذا التدخل. 

وفي اللغة الإنجليزيةء يمكننا استخدام علامة النجمة * للاستعلام عن 
الكلمات التي لها علاقة بالأصل الاشتقاقي لكلمة معينة. مثل البحث بالصيغة 
*0t0طم‏ فتكون نتيج ة الاستعلام فهيa: photo, photograph,‏ 
photographer, photography‏ وغیرھا من الکلمات sah gall‏ من الكلمة 
الأساسية موضع البحث بالإضافة إلى الأسطر التي احتوت سياقات لها. كما 
يمكن أيضمًا الاستعلام باستخدام اللواحق النحوية والتعرف على بعض الكلمات 
الخاصة وخصائصها النحوية. على سبيل المثال؛ استخدام صيغة الاستعلام 
"وم" لسرد جميع الكلمات التي تحتوي اللاحقة "وم" واستخدام الصيغة 
۳" للاستعلام عن الجمل الاستفهامية. 

استخدام المنطق المركب وصيغة “within”‏ للاستعلام عن السياقات 
التي تفصلها كلمات معينة لها علاقة بالكلمة موضع البحث سواء كانت 


تعبيرات لغوية أو جزء من جملة. 


ثانيًا: تطبيقات الاستعلام بالكلمة داخل الذخائر اللغوية 
تيح الإستعانة بالقدرات الهائلة للحاسب الآلي في الحساب ومعالجة 
المعلومات» تتيح للمستخدم الاستفادة من برمجيات الاستعلام عن الكلمات في 
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استخراج المحتويات التي يرغب في الحصول عليها من الذخيرة بالإضافة 
إلى مراقبة تلك الكلمات داخل البيئة اللغوية المصاحبة لهاء أو إجراء دراسات 
مقارنة عن الظواهر اللغوية المتعلقة بها. إن هذا النوع من التطبيقات القائمة 
على الذخائر اللغوية له قيمة هائلةء ويتمتع بقدرة تطبيقية واسعة النطاق تزداد 
by‏ بعد يوم في مجالات الأدب وعلم اللغة» وتعليم اللغات وأنظمة معالجة 
اللغات الطبيعيةء بالإضافة إلى ما حققه بالفعل من نتائج مذهلة حتى الآن. 
وفيما يلي قائمة بمجالات التطبيق سالفة الذكر )23 
-١‏ التطبيقات في مجال الأدب 

يتمثل ذلك في بناء ذخائر لغوية للأعمال الأدبية المشهورة؛ وإنشاء ملفات 
مفهرسة قائمة على تلك الذخائر. وتستخدم ملفات الفهرسة على نطاق واسع في 
مجال الدراسات الأدبية؛ حيث تقدم بيانات مثالية للتعرف على خصائص أعمال 
أحد الأدباء أو الشعراء» وطرق استخدامه للكلمات وأسلوبه اللغوي. 

إن إنشاء ملف مفهرس عن الأعمال الأدبية وإتاحته للاستخدام من قبل 
علماء اللغة يُمَكَنهُم من دراسة خصائص أسلوب أدبي معين في الكتابة؛ فعلى 
سبيل المثال» من خلال إنشاء ملف مفهرس للأعمال الأدبية لشكسبيرء يمكننا 
أن ندرس الصيغ المختلفة لضمير المخاطب في اللغة الإنجليزية مثل ( ,36 
)you, your, yours, thou, thee, thy, thine‏ ومجالات استخدام کل صیغة› 
ومن ثُم يمكن طرح بعض الفروض الخاصة بعلم اللغة الاجتماعي وقياسهاء 
على غرار: من المتحدث؟ ومن المتحدّث إليه؟ وما ظروف الحديث 
وملابساته؟ وما إلى ذلك. وعلى سبيل المثال أيضاء يُكننا عسن طريق 
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tay‏ بالكلمات "أن ندر DD‏ اشتخدام ‏ خض الكلمات التغرف: علسئ 
اتجاهات تطور الاستخدام اللغوي على مدى مائتي عام من خلال دراسة لغة 
أعمال الشاعر الألماني جوته. فمثلا كلمة "108816" wa ca‏ على نطاق 
واسع في شعر جوتة (©206406) إذا ما قورن ذلك باستخدامها في الأعمال 
الحديثة. وجميع الأنماط اللغوية الأخرى يمكن التعامل معها بمثل تلك 
الطريقة. كما يمكن عمل دراسات مقارنة للأعمال الكلاسيكية مع الأعمال 
الأدبية الحديثة» وعمل تحليل كمي لمثل تلك التغيرات التي تحدث للغة مع 
مرور الزمن. ويمكن أيضًا استخدام الاستعلام بالكلمة لعمل دراسات عن 
الكلمات وأنواعها والتراكيب النحوية داخل الأعمال الأدبية من خلال عدة 
زوايا للتحليل؛ وذلك بغرض التعرف على أوجه الاختلاف والتشابه بين 
أعمال الكتاب في مراحلهم الإبداعية الأولى والمتأخرة فضلاً عن دراسة 
أوجه الاختلاف والتشابه بين أساليب عدد من الكتاب» بالإضافة إلى تقديم أدلة 
قوية للحكم على مدى انتماء بعض الأعمال الأدبية لفترات معينة من فترات 
الإبداع الأدبي. 
7- التطبيقات في مجال الدراسات اللغوية 

أشار ليتش eY (Leech:1992)‏ أن الأداة الأكثر بساطة وفاعليية 


والأكثر استخدامًا والقائمة على أساس حاسوبي هي الاستعلام عن الكلمات. 
وتتمثل التطبيقات النموذجية لذلك في: 


-١‏ الدراسات في علم المفردات: حيث يتم التوصل إلى مغزى الكلمات 
وما تحمله من معنى في سياق محددء بالإضافة إلى طرق استخدام 
تلك الكلمات من حيث القواعد» وطبيعة الأسلوب» والسياق وما إلى 
ذلك. 

؟- الدراسات النحوية التصنيفية: تمييز وتصنيف الأمثلة النموذجية 
المستخدمة في بعض المجالات من حيث النحوء والدلالة» والسياق» 
والأسلوبية. والذخائر اللغوية المُرّمّزة صرفيًا ونحويًا هي أكشر 
الذخائر ملائمة لهذا الغرض. 

*- في مجال تعليم اللغات: في أثناء تأليف المواد الدراسية لتعليم اللغة 
الإنجليزيةء قام بيبر (Biber)‏ وآخرون عام ۱۹۹١‏ بعمل دراسة عن 
الأساليب البلاغية التي تتكون من الاسم + صفة في اللغسة 
الإنجليزيةا"”!؛ حيث قاموا بعمل دراسة مسحية عن شرح هذا 
التركيب في عدد من المؤلفات في قواعد اللغة الإنجليزية في فترة 
ثمانينيات القرن العشرينء واكتشفوا أن غالبية هذه المؤلفات النحوية 
تهتم بهذه العلاقة بصورة ملحوظة:؛ لدرجة أن شرح هذه القاعدة قد 
وصل إلى ٠١‏ صفحة. أما النصوص التي تتناول التركيبات البلاغية 
المكونة من اسم + تعبيرة وصفية من جار ومجرور فقد كان عددها 
أقل نسبيًا؛ حيث لم يتجاوز إجمالي عدد صفحاتها خمس صفحات. 

أما برمجية الاستعلام بالكلمة التي استخدمت في ذخيرة لوب وذخيرة 

ee cs a 
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فقد cis‏ أن عدد مرات ظهور التركيبات الوصفية باستخدام الصيغة اسم + 
تعبيرة وصفية من جار ومجرور أكثر بكثير من التركيبات الوصفية باستخدام 
الصيغة اسم + تعبيرة وصفية من الصلة والموصول؛ حيث وصلت نسبة 
تواجد الصيغتين في كل ألف كلمة على التوالي %۲۳,۳ مقابل #٥,١‏ 
بالإضافة إلى أن هناك دراسات قد أثبتت أن تركيب الاسم + التعبييرة 
الوصفية من جار ومجرور تعتبر من التركيبات الصعبة التي تواجه الدارسين 
الأجانب للغة الإنجليزية. 

وهذا يشير إلى أن اهتمام القائمين على تعليم القواعد بظاهرة لغوية من 
كمه ينو بارمة حقيقية: حبك :لآ يتطايق تعايم التؤاعد.مع الحقائق اللغوينة 
الواقعية. وعند تأليف هذا النوع من المواد الدراسية لا ينبغي الاكتفاء بمراعاة 
درجة صعوبة الظواهر اللغوية وطرق تدريسهاء بل ينبغي التفكير أيضًا في 
ظروف الاستخدام الواقعي لهذه الظواهر في اللغة. على هذا الأساس فقد تم 
تأليف كتاب (كولينز كوبويلد لقواعد اللغة الإنجليزية) على أساس التوافق مع 
قدر كبير من الحقائق اللغوية الموجودة في ذخيرة كوبويلد. وقد استغل هذا 
الكتاب تقنيات الاستعلام داخل الذخيرة لتقديم قدر كبير من التراكيب النحوية 
وأمثلة واقعية حولها. 
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الفصل الثاني 
توظيف الإحصاء في علم الذخائر اللغوية 


تعتبر الذخائر اللغوية مصدرا مهما لإجراء التحليل الكمي للغة. إلا أن 
استخدام الإحصاء الكمي في علم الذخائر اللغوية ليس بالأمر الذي يمكن 
إجراؤه بسهولة داخل المادة اللغوية المُمّلّة لمتن الذخيرة. والتقنيات 
الإحصائية المستخدمة في هذه الحالة لا تقتصر على إجراء التحليل الرياضي 
للبيانات اللغوية المعقدة واستخراج القواعد المنظمة لتلك البيانات اللغوية 
فحسب» بل يمكن استخدامها أيضًا في تفسير العلاقة بين كل من أسلوب 
الكتابة والتركيب اللغوي. 

ويقدم هذا الفصل أكثر الطرق الإحصائية قيمة واستخدامًا في pale‏ 
الذخائر اللغوية /2ا. وفي هذا الجزء نُقَدْم تعريقا مختصرا لأهم الطرق 
وأكثرها شيوعًا في علم الذخائر اللغوية؛ ونظرًا إلى عدم إمكانية حصر 
تفاصيل كل المنهجيات الإحصائية في هذا المقام؛ فسوف نكتفي بالحديث عن 
وسائل تطبيق تلك التقنيات الإحصائية في علم الذخائر اللغوية بشكل مبسط؛ 
على سبيل المثال؛ كيفية الاستخدام» والمغزى الحقيقي من اس تخدامهاء مع 
عدم التعرض للتفاصيل الدقيقة لتطبيقها. 
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أولا: إحصاء معدل التكرار 


يُعتبر التعداد من أبسط الأعمال الإحصائية التي يتم تنفيذها على 
الذخائر اللغوية؛ بمعنى إجراء عملية عَد لعدد مرات ظهور بعض الظ واهر 
اللغوية في أنواع معينة من النصوص. والتوصل إلى عدد مرات ورود 
المداخل اللغوية داخل الذخيرة» يساوي الحصول على عدد مرات تكرار تلك 
المداخل في الذخيرة بأكملها. ففي اللغة الإنجليزيةء قد تكون تلك المداخل 
كلمةء أو تركيبًا لغوبًا بعد حذف الإضافات الملحقة بهء أو نوغا معينا من 
الكلمات» أما في اللغة الصينية فقد تكون تلك المداخل هي الرمز الصيني أو 
الكلمة الصينية. وسوف تكون الإشارة في هذا الفصل إلى الكلمة ما لم يكن 
هناك داع للإشارة إلى نوع آخر من المداخل اللغوية. تكون خطوات التعداد 
كما ae‏ كل كلمة من الكلمات داخل الذخيرة يصورة متوإالية» وإذا 
كانت الكلمة قد ظهرت من قبل؛ يتم إضافة الرقمٌ ١‏ على عدد مرات ظهور 
هذه الكلمة» وإلا يتم إضافة هذه الكلمة إلى قائمة الكلمات المكررة؛ ووضع 
الرقم ١‏ أمامها. 

يُستخدم الرقم الذي تم التوصل إليه من خلال التعداد للإشارة إلى معدل 
تكرار الكلمات داخل الذخير بأكملهاء وهذا الرقم له استخدامات كثيرة في علم 
الذخائر اللغوية. فإذا تمت فهرسة قائمة الكلمات المستخرجة من الذخيرة وققًا 
لعدد مرات التكرارء يمكننا عمل دراسة عن ظروف توزيع المفردات داخل 
النصوص. على سبيل المثال» في نص تقنيء إذا نقص استخدام المصطلحات 
التقنية في منطقة معينة من النصء وزاد استخدام هذه المصطلحات فجأة فيما 


بعدء فإن هذه الملاحظة تشير بصورة خاصة إلى الحدود الفاصلة بين أجزاء 
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النص؛ بمعنى أن يكون ذلك إشارة إلى نهاية مقدمة النص» te‏ 
إشارة إلى مقدمة قد كتبها أحد الأشخاص غير المتخصصين. أما ترتيب قا 
الكلمات حسب الترتيب الأبجدي فيُسْتخدم بصورة أساسية في عمل قائمة 
مفهرسة لمفردات الذخيرةء وبذلك يمكن زيادة سرعة البحث عن الكلمات 
داخل الذخيرة؛ أما الترتيب التنازلي لقائمة المفردات حسب معدل التكرارء 
فيساعد في الدراسات القائمة على علاقة الأسلوب بالكلمات. وفيما يتعلق 
بمقارنة قائمة الكلمات ومعدل تكرارها على مستوى نوع معين من النصوص 
بمثيله على مستوى ذخيرة كبيرة» والتوصل إلى استخراج قائمة بالكلمات 
الأكثر تكرارا في الذخيرتين؛ فيشير إلى أن تلك القائمة من الكلمات تتمتع 
بقدر من الثبات في الاستخدام. ويساعدنا في استبعاد تلك الكلمات ذات معدل 
التكرار الأعلى»ء وبالتالي تخمين الكلمات المفتاحية لنوع معين من 
Papai‏ 


ثانيًا: النسبة 
النسبة التي تحتلها كلمة معينة داخل الذخيرة يقصند بها عدد مرات 
ظهور الكلمة داخل الذخيرة مقسومة على العدد الإجمالي لمجموع تكرارات 


)١(‏ على سبيل المثال إذا كان لدينا نص متخصص في مجال البيئةء وحصلنا على جدول 
تكراري تنازلي عن كلمات هذا النصء وعقدنا مقارنة بين مجموعة الكلمات الأعلى 
من حيث عدد مرات التكرار والكلمات المقابلة في ذخيرة أخرى عامة» وقمنا باستبعاد ٠‏ 
تلك الكلمات الأعلى من حيث التكرار من الجدول التكراري للنص المتخصصء فإن 
ما يتبقى من كلمات يُمَتل بداية للتعرف على الكلمات المفتاحية التي تَستَّخْدْم في مجال 
البيئة. (المترجم) 
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كلمات الذخيرة بالكامل. وعلى الرغم من أن تعداد مرات التكرار يُعتبر . 
طريقة فعالة للمعالجة الكمية للبيانات داخل الذخيرة» حيث إنها من الطرق 
المستخدمة دائمًا في الدراسات القائمة على ذخائر لغويةء فإن هذه الطريقة 
تشوبها بعض أوجه القصور. على سبيل المثال» تظهر أوجه قصور هذه 
الطريقة عند مقارنة مجموعتين من البيانات. فإذا أردنا الآن أن نقارن بين 
ذخيرتين إحداهما شفهية والأخرى تحريرية في اللغة الإنجليزية» فإن قائمة 
المفردات الخاصة بهاتين الذخيرتين ومعدل تكرار الكلمات بكل منهما يسجل 
عدد مرات ظهور كل كلمة في المجال اللغوي الطبيعي الذي خرج ais‏ 
الإحصاء. وعندما يكون نطاق الذخيرتين غير متطابق من حيث الحجم» فمن 
الصعب الوثوق بجدول التكرار هذا لعمل المقارنة. وعلى الرغم من أن عدد 
مرات ظهور كلمة من الكلمات داخل إحدى الذخائر قد يكون أكبر من عدد 
المرات في الذخيرة الأخرىء فمن المحتمل أن تكون نسبة وجود هذه الكلمة 
في الذخيرة الأولى أقل من نسبة وجودها في الذخيرة الثانية. لو فرضنا أننا 
نقارن بين ذخيرتين للغة الإنجليزية أحدهما شفهية وتتكون من خمسين ألف 
كلمةء والثائية تحريرية وتتكون من خمسمائة ألف كلمةء وكان عدد مرات 
تكرر كلمة 00ط" في الذخيرتين هو ٠٠١ ٠١‏ مرة على التوالي. فلو نظرنا 
من ناحية عدد مرات التكرار نجد أن كلمة ١0ط"‏ قد تكررت في الذخيرة 
التحريرية أكثر من عدد مرات تكرارها في الذخيرة الشفهية» إلا أن الحقيقة 
ليست كذلك. والآن دعونا نحسب نسبة ظهور كلمة "700" في الذخيرتين 
على السواء: 
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اللغة الشفهية: %٠,١ =٠٠٠٠٠ |٠١‏ 
اللغة التحريرية: ٠.0/5.....ة- 900,١‏ 
ومن الواضح أن كلمة "5004 لا يزيد معدل تكرارها في اللغة 

التحريرية بمقدار عشرة أضعاف كما يشير عدد مرات التكرار قبل حساب 
النسبة» بل إن معدل تكزار الكلمتين في الذخيرتين متساو كما تشير معادلة 
النسبة التي تم حسابها. لذلك» فإنه عند مقارنة البيانات في ذخيرتين مختلفتين 
في الحجم» لا يمكن اللجوء إلى المقارنة السطحية لعدد مرات الظهور داخل 
الذخيرة» بل ينبغي حساب نسبة هذه الأرقام إلى رقم آخر؛ حيث يمكن أن 
يكون للرقم الناتج دلالة يمكن الاعتماد عليها. وفي ذلك الوقت يكون أسلوب 
الحساب المناسب هو: 


عدد مرات ظهور الكلمة داخل الذخيرة 


النسبة = : 
إجمالي عدد كلمات الذخيرة ' 





وهذه النسبة يتم التعبير عنها بالنسبة المئوية. 
ثالنًا: أسلوب الاختبارات الإحصائية 

على فرض أننا نريد مقارنة الإصدارين اللاتينيين لكل من إنجيل متا 
وإنجيل يوحناء سنجد أن مقارنة حالات الاستخدام لصيغة المضارع ‘dicit‏ 
وصيغة الماضي "4121" لفعل القول "هه 60 في الذخيرتينء علينا أن نبدأ 
بإحصاء عدد مرات تكرار كل كلمة في كل إصدار. وتغون نتيجة الإحصاء 


كما يلي: 
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ويمكننا أن نلاحظ من خلال الأرقام السابقة أن عدد مرات استخدام 
صيغة المضارع à (dicit)‏ إنجيل يوحنا أكثر من عدد مرات استخدامها في 
إنجيل متا. وعلى فرض أن هناك عدم اتفاق بين الإنجيلين يتمثل في هاتين 
النقطتين» فإننا نحتاج إلى إثبات أن هذه الملاحظة ليست وليدة الصدفة مسن 
خلال العمليات الإحصائية. فنحن لا يمكننا الاكتفاء بالبيانات الموضحة 
بالجدول السابق للحصول على هذه النتيجة؛ ولكن الأمر يستدعي مستوى 
أعلى من التجريبء بمعنى إجراء اختبار إحصائي من أجل تقرير أوجه 
الاختلاف بين استخدام فعل القول (رهء 40) في الإصدارين» وإقرار درجة 
احتمال الصدفة في وجود هذا الاختلاف. 

يمكن لعلم الذخائر اللغوية اللجوء إلى أكثر من اختبار إحصائي 
للتوصل إلى ذلك وهذه الاختبارات تشمل اختبار كا* )27 )» واختبار تي غ 
وغيرها من الاختبارات. وحتى نوضح أهمية استخدام هذه الاختبارات في 
عمليات التحليل cg sl‏ ستقدم شرحًا مبسطًا لاختبار ES‏ (27 )؛ وذلك 
نظر! إلى أن اختبار كا” ( x‏ ) من أكثر الاختبارات الإحصائية اس تخداما؛ 

حيث يتمتع بالمميزات التالية: 
)۱( زيادة حساسيته تجاه البيانات مقارنة باختبار تي . 
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(Y)‏ لا يحتاج هذا الاختبار إلى توافر فرضص "التوزيع الطبيتعي" 
للبيانات» الذي لا يمكن الحصول عليه لبعض البيانات اللغوية. 

(Y)‏ سهولة حساب اختبار كا ( 2 ). ومن عيوب اختبار كا 
ا عندما تكون المادة التي يتم البحث عنها قليلة العدد فإن النتائج 
تفتقد إلى الموثوقية. 


"WS sal pists‏ ( 2 ) غالبًا في مقارنة الفرق بين عدد مرات 
التكرار المشاهدة داخل الذخيرة مع عدد مرات التكرار ABE gil‏ وكلما 
اقترب عدد مرات التكرار المُشاهدة مع عدد مرات التكرار المُتوْقَعَة كانت 
الظاهرة اللغوية تَحْدُتْ على سبيل المصادفة. وعلى العكس من ذلكء كلما زاد 
الفرق بين عدد مرات التكرار المُتَوَقَمَة وعدد مرات التكرار المشاهدة (phe‏ 
ذلك عن أن عدد مرات التكرار المُشاهّدة قد حدث نتيجة تأثير عوامل معينة 
وليس على سبيل 'الصدفة. وإذا تحدثنا عن المثال السايق» نجد أن هناك اختلافا 
حقيقيًا بين إصداري الكتاب المقدس في طرق استخدام فعل القول ((052). 
بغض النظر عن التفاصيل الخاصة بخطوات حساب قيمة WS‏ 
OY 2)‏ وعلی فرش han a ops bo‏ قيسة كا )+( 
لصيغتي المضارع والماضي من فعل القول dixit" s dicit"‏ تم ار La‏ 
التعرف على درجة أهمية هذه القيمة في جدول قيم كا )"2 (« فقبل ذلك 


we و‎ 


ينبغي تحديد قيمة درجة الحُريّة» التي تُحسب من المعادلة التالية: 


29 
)١(‏ لمزيد من التفاصيل عن اختبار ك“ ( * ) انظر مراجع الإحصاء الخاصة 
بالاختبارات اللامَعلميّة.(المترجم) 
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درجة الحريّة > (عدد أعمدة الجدول التكراري - )١‏ * (عدد صفوف 
الجدول التكراري-١)‏ وبعد ذلك يتم البحث في جدول قيم كل (' ) عسن 
قيمة الاحتمال المناظرة لتقاطع كل من درجة الحرية مع قيمة كا (Z)‏ 
وإذا اقتربت هذه القيمة من الصفر فإن هذا يعني أن الظاهرة حدثت بشكل 
عي ل وعلى العكس من ذلك إذا كانت 
القيمة أكبر من الصفر فهذا ر يعني أن الظاهرة حدثت ت على سبيل المصادفة. 
ونظرا إلى أن درجة الاحتمال تقع بين ٠‏ و١ء‏ فقد اتفق ق على اعتبار قيمة 
تقديرية تَعَبّر عن أن النتيجة ذات مغزى إحصائيء وهذه القيمة المُتفق عليها 
تقدر ب ٠,٠١‏ فإذا كانت قيمة الاحتمال التي يتم الحصول عليها من جدول 
الكشف أقل من ٠,٠١‏ فإن هذا يدل على أن نسبة %۹١‏ من المشاهدات 
تحدث عمذا؛ وإلا فإن درجة موثوقية القيم الإحصائية التي يتم التوصل إليها 
لا تصل إلى نسبة 715. 

والآن دعونا نحكم على الفرق بين الكلمتين في المثال السابقء وهل 
القيم الإحصائية التي تم الحمصول عليها ذات مغزى أم لا؟ بالاستعانة بالجدول 
التكراري نجد أن تَر قيمة كل” ( + ) تساوي ٤ ,۸٤۳‏ وبما أن الجدول 
التكراري السابق يحتوي عمودين وصفيْن؛ إذن درجة الحرّيّة (؟-١)‏ * -١(‏ 
= . وعند الكشف عن قيمة الاحتمال المقابلة لتلك القيمة في جدول 
توزيع S‏ ( 2 ) نجد أنها تساوي ٠١‏ وهي بالطبع قيمة أقل من 
القيمة التقديرية ٠, ٠6‏ ولذلك يمكننا الحكم أن هذا الفارق يعبر في حقيقة 
الأمر عن أن هناك اختلاقا في استخدام فعل القول في إصدار ي الكتاب 
المقدسء وأن هذا الاختلاف لم يأت على سبيل المصادفة. 
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رابعًا: التصاحب اللغوي 

التصاحب (0110261082») من المفاهيم -المهمة التي لها تطبيقات على 
نطاق واسع في علم اللغة. وباختصارء فإن التصاحب ما هو إلا نمط تظهر 
من خلاله المفردات بصورة اقترانية ويكون لذلك النمط خصائص محددة. 
ويرى كجلمّر ”5 ci (Kjellmer:1991)‏ قاموس المفردات في عقل الإنسان لا 
يتكون فقط من كلمات مفردة» بل يحتوي العديد من الوحدات اللغوية التي 
تزيد عن الكلمة وترتبط فيما بينها بعلاقات نحوية. وهذه الوحدات منها ما هو 
ثابت» ومنها ما هو متغير. إن عملية تمييز أنماط التصاحب اللغوي داخل 
النصوص اللغوية (بالإضافة إلى ما قال به كَجْملر من أنه نمط من أنماط 
التراكيب النحوية» فهو يوجد في تلك الكلمات التي دائمًا ما تظهر بم صاحبة 
كلمات معينة) تلعب دور في غاية الأهمية في مجال التأليف المعجمي؛ حيث 
يساعد ذلك في وضع معاني الكلمات وتحديد مجالات الاستخدام لكل منها 
وسياقاتها. وهذه المعلومات تلعب دور! مماثلا من حيث الأهمية في علم 
معالجة اللغات الطبيعية وتعليم اللغات. 

إن الكشف عن التصاحبات اللغوية لكلمة معينة داخل ذخيرة لغويةء إما 
أن يتم باستخدام المنهجيات الإحصائيةء أو باستخدام المنهجيات القائمة على 
نظرية المعلومات. 
١‏ - كمية المعلومات المتبادلة واختبار زد 2-5201 

إذا كان لدينا ذخيرة لغوية» يمكننا أن نكتشف أي الكلمات بينها درجة 


من درجات التصاحب الواضحة وذلك وفقا لطبيعة البيانات التجريبية التي 
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يمكن استخراجها من تلك الذخيرة» ومن المؤكد وجود قوة اقترانية ذات 
مغزى بين الكلمات المكونة لتلك التصاحبات» ولا يُعتَبَر التجاور بينها تجاورً! 
على سبيل المصادفة. إن كمية المعلومات المتبادلة واختبار زد Z-score‏ 
دائمًا ما يتم اللجوء إليهما في الحكم عما إذا كانت هناك علاقة تصاحب بين 
كلمات معينة أم لا. 

إن كمية المعلومات المتبادلة() information)‏ لقبغنادم)[52] هي 
إحدى المفاهيم المعروفة في نظرية المعلومات؛ حيث يتم التعامل مع الكلمتين 
٠"‏ 2" اللتين تكونان تصاحبًا لغويًا (ومن الممكن أيضًا أن يكون ذلك مع . 
أي عنصرين تمت مشاهدتهما على أنهما يتلازمان معا في الظهور) على 
أنهما حدثان عشوائيان يحدثان معاء ولحساب كمية المعلومات المتبادلة بين 
حدثين» ينبغي البدء بحساب احتمال تحقق هذين الحدثين معنا من خلال 
المعادلة (:2070, بالإضافة إلى حساب احتمال ظهور كل كلمة بمفردها 
e PO) y a PO)‏ ويتم حساب كمية المعلومات المتبادلة من خلال المعادلة 
التالية: 


| p(w W2) 
M (w, w) = l08:, —— 4 
| ° p(w) p(w») 


إن المعنى الحقيقي لمصطلح كمية المعلومات المتبادلة هو مقدار حجم 
المعلومات التي يقدمها ظهور كلمة معينة لكلمة أخرى عندما تظهر 





)١(‏ كمية المعلومات المتبادلة بين الحدث العشوائي ,١ء‏ والحدث العشوائي رس تحرف 
أنها مقدار الغموض الذي يتناقص حول 1 بعد حدوث ,10 . (المترجم) 
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بصحبتها. على سبيل المثال الكلمتان OLS (riding, boot) Gusta‏ 
led borrowed 5 formula Lil Acne 4: 2) 520.5‏ الرغم من أنهما قد 
ظهرا معَاء كما في الجملة )... oë «(It is a formula borrowed from‏ ھذا 
التصاحب قد حدث على سبيل المصادفةء ولا يوجد بين هاتين الكلمتين 
ارتباط من نوع خاص. وبصورة عامة» فكلما زادت قوة الارتباط بين 
كلمتين» زادت قيمة المعلومات المتبادلة بينهما؛ وإذا كان هناك ارتباط سلبي 
بين كلمتين (بمعنى أن ظهور إحداهما يمنع ظهور الثانيةء والعكس صحيح)؛ 
فستكون قيمة المعلومات المتبادلة بينهما بالسالب. أما إذا كانت الكلمتان 
تظهران بصورة مستقلة (بمعنى عدم وجود علاقة بينهما)؛ ففي تلك الحالة 
ستكون قيمة المعلومات المتبادلة تساوي صفرا. وبعبارة أخرىء فإن الكلمتين 
اللتين بينهما قيمة معلومات متبادلة كبيرة يزداد احتمال وجود اقتران ذي 
معنى بينهماء أما عندما تقترب قيمة المعلومات المتبادلة بين كلمتين من 
الصفر أو تقل عنهء فلا يمكن أن يكون هناك تصاحب بينهما. 

أما القيم التي يقدمها اختبار زد (2-5205) فتشبه تلك التي تقدمها 
معادلة كمية المعلومات المتبادلة. فبالنسبة إلى كلمة معيئة داخل نصء eB‏ 
اختبار ز 3 (Zscore)‏ مقارنة بين المشاهدات الحقيقية والمشاهدات المُتوقمَة 
للكلمات الأخرى التي تظهر في السياق المصاحب لتلك الكلمة. وكلما زادت 
قيمة اختبار زد (Z-score)‏ لكلمة من الكلمات مع كلمة أخرى يتم تحديدهاء 
زادت القوة التصاحبية بينهما (أو القوة الاقترانية «(Lagan‏ بمعنى زيادة إمكانية 
وجود اقتران له دلالة بين هاتين الكلمتين. ولا يُسسُتخدم اختبار زد (2-5©07) 
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كثيرًا في علم الذخائر اللغويةء إلا أن هناك برمجية تسمى 1۸٣1‏ للفهرسة 
السياقية استعانت بتلك المنهجية. 
؟ - تطبيقات كمية المعلومات المتبادلة واختبار زد (Z-score)‏ 

الاستخدام الرئيس لهما هو استخراج الوحدات اللغوية المُركَبَة من أكثر 
من كلمة» ولا يشمل ذلك التعبيرات اللغوية الشائعة فقط مثل ' 4هه 01> 
اآناط" بل يمتد ليشمل التعبيرات الاسمية أيضباء مثل " temporal‏ 
calag Gadhal Tat äg S Iå mandibular joint‏ استخدام 
نتائج هذين الاختبارين في صناعة المعاجم؛ فإن لهما استخدامًا مهما في 
مجال الترجمة؛ حيث يمكن من خلالهما بناء قاعدة معارف تفصيلية عن 
المصطلحاث المستحتنة في مجال معين: 

أما ثاني أهم التطبيقات التي نخدم فيها كمية المعلومات المتبادالة 
واختبار زد (Z-score)‏ فيتمثل في إمكانية المساعدة في إزالة اللبس اللغوي 
ik gil, Word Sense Disambiguation)‏ عليه اختصارًا Vaa g (WSD‏ 
يختلف عن التطبيق السابق» لأننا في تلك الحالة نكون بصدد استخراج 
مجموعة التصاحبات اللغوية المألوفة لكلمة من الكلمات؛ فإذا أردنا أن Bas‏ 
أهم التصاحبات التي تأتي مع كلمة ماء فمن الممكن أن يكون ذلك في إطار 
الاحتمالات التالية: 

)١(‏ نجمع التصاحبات التي تشترك في كلمة واحدة في مجموعات» 
الأمر الذي يساعد علماء اللغة في التعرفٍ الآلي على المعاني المختلفة لتك 
الكلمة من خلال قائمة مفهرسة للتصاحبات. bank” LaSi‏ على سبيل المثال 
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يمكن أن تكُون تصاحبًا لغويًا مع كلمات معينة في مجال الجغرافيا (مثل كلمة 
(river‏ ولكنها تكوّن تصاحبًا آخر مع كلمات مختلفة في مجال البنوك والمال 
(مثل كلمة (investment‏ ومن هنا يمكننا التمييز بين دلالتين مختلفتين لكلمة 
"bank"‏ وفي الوقت ذاته يتم إجراء مقارنة بين كلمتين مختلفتين من خلال 
علاقاتهما الاقترانية بكلمات أخرى للتعرف على مدى الاختلاف بين هاتين 
الكلمتين من حيث الاستخدام. وفي هذا الإطارء أجرى العالم ليتش 
N Leech:1992)‏ تجربة لمقارنة الاختلاف في الاستخدام بين الكلمتين 
"powerful" y strong”‏ في اللغة الإنجليزية. فاستخدم نظرية المعلومات 
المتبادلة لاستخراج الاقترانات المصاحبة لكل من هاتين الكلمتين داخل 
الذخيرة اللغوية» وكانت النتيجة أنه اكتشف اختلاف هاتين الكلمتين من حيث 
القدرة الاقترانية. فكلمة '50088” تقترن مع كل من northerly”‏ 
behaviour” s showings’ s‏ و supporter” s "currents"‏ وما إلى ذلك 
‘minority’ 5 <'tool” J—ie GLAS a» 4 304 "powerful" 4.15 Lal‏ 
و “neighbor”‏ و «symbol‏ و "weapon" “figure”‏ وما إلى ذلك. وعلى 
الرغم من أن هناك بعض التصاحبات التي تم حصرها فإنه لا يمكن أن يُطلق 
عليها اقتران بالمعنى الدقيق للكلمة؛ ولكن يمكن أن يتضح منها وجود 
اختلافات جوهرية بين هاتين الصفتين من حيث الاستخدام. 

وهناك استخدام آخر مهم لنظرية المعلومات المتبادلة:؛ ألا وهو 
المساعدة في دراسة العلاقة الدلالية بين ذخيرتين لغويتين متوازيتين ثنائيتي 
اللغة على مستوى الأسطر. فعلى فرض أن لدينا ذخيرتين ثنائيتي اللغة وتم 
عمل تواز بينهما على مستوى الأسطرء بالإضافة إلى عمل تواز على 


217 


مستوى الجمل؛ بمعنى أننا يمكننا اختيار جملة ما داخل إحدى الذخيرتين» 
وتحديد الجملة المترجمة عنها في الذخيرة الموازية لها. فبناءً على ذلك»ء 
يمكننا عن طريق الحساب أن نتوصل إلى الكلمات وترجمتها داخل كل جملة 
من جمل الذخيرة. 

خامسسا: النماذج اللغوية 


١‏ - نموذج العنصر 71 (نموذج الرتبة 17-1 لماركوف) 

على فرض أن لدينا سلسلة من العلامات 5 تتكون من محدد 2 من 
العلاماتء وهذه العلامات على التوالي يرمز لها بالرموز Me Marre Me‏ فإن 
النموذج og sill‏ الذي يَعتمد على تواتر تلك العلامات معا يرى أن احتمال 
ظهور عناصر السلسلة ك معا يُحسّب من المعادلة التالية: 


L 
P(S) = P(w, ) P(w, | m)PC(w, | ww). P(w, | wwa) - | ] 00 | Wiwi) 


fei 





وعند بناء فرض مستقل وفقا للمعادلة السابقةء بمعنى افقراض أن 
ظهور كل كلمة ” في السلسلة الكلامية 5 يرتبط فقط بالكلمة السابقة لها؛ 
التي تحتل الموقع 7-1 وذلك وفقا للصيغة - "0-0٠‏ بالإضافة إلى 
عدم وجود علاقة بينها وبين الكلمات الأخرى خارج نطاق 7-1. فيمكن 
التعبير عن المعادلة السابقة كما يلي: 


PCS) = TIP wm) 


i=l 
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L 
= P(w, )P(w | w)..-P(Wy- | Wı... W-2). ] [P(w, | W,...Wy1) 


anal 
إن النماذج النخوية المكوّنة من عدد اهن الوجدات اوي نوةخ‎ 
.711-1 الانتقال بخطوة لماركوف‎ 
النماذج النحوية الأخرى الأكثر شيوعًا؛ التي تنتمي إلى نموذج الانتقال‎ 
بعدد ]1 من الخطوات هي: نموذج الانتقال بخطوتين ونموذج الانتقال بثلاث‎ 
على التوالي. بمعنى أن احتمال ظهور أي‎ N=3و‎ (N=2 خطوات وذلك عندما‎ 
كلمة ينحصر فقط في ظهورها مع كلمة أو كلمتين سابقتين لها داخل النص.‎ 
عنها بالصيغ التالية:‎ fad وعلى ذلك فإن معادلة حساب تلك الاحتمالات‎ 





معادلة حساب النموذج النحوي الثنائي: 


P(S) = P(w)[ [P(w, | wa) 
i=2 


معادلة حساب النموذج النحوي الثلاثي: 


P(S) = P(w)P(w, | Ww) TPG | W241) 





؟ - نموذج ماركوف الكامن 
Hidden Markov Model (HMM)‏ 
نموذج ماركوف الكامن 1434086 هو ائتلاف مجموعة من الحالات 
تربطها سلسلة من التحولات التي تكون دائمًا في إطار احتمالين: الأول هو 
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احتمال التحول ya» (transition probability)‏ الذي يُعطي احتمال حدوث 
. هذا التحول؛ والثاني المتوالية المُعبّرَة عن كثافة مخرجات الاحتمال 
(PDF) (0 Output Probability Density Function)‏ 5 58 الذي يعرف 
احتمال خروج كل رمز من قائمة حروف أبجدية محدودة العدد كما يظهر لنا 
من الشكل (Y-Y)‏ 


i‏ لما 


E 8| 


ee 


شكل :)١-7”(‏ نموذج ماركوف كامن مبسط 
(حالتان» ورمزان (B3 A Glade‏ 

التعريف الشكلي لنموذج ماركوف الكامن كما يلي: 

(أ) اقتران الحالة (5]: ويشمل حالة بداية 37 Sr Ags Alley‏ 

(ب) اقتران التحول 4/(:47): حيث تعبّر © عن احتمال التحول من 
الحالة أ إلى الحالة ل. | 
P(X, = J| X, =, Vj, a, > 0, 3 a=1‏ = 

J 
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(ج) التنظيم الاحتمالي للمخرجات FI}, PF‏ حيث يُعَبْر 2 عن 


احتمال ظهور العلامة * في أثناء التحول من الحالة أ إلى الحالة .. 
b, = PY, =k | X, =i, Xma Yio j,k,b; 20, > 已‏ 
k‏ . 





حيث تَعَبّر 2:74 في المعادلة السابقة عن أن J AAD‏ تحدث في 
اللحظة 1 و * " Sa‏ عن ظهور العلامة * في اللحظة /. 


وإذا كان لدينا نموذج ماركوف كامن aè M ade Gl HMM‏ 
احتمال أن يُولد هذا النموذج سلسلة من العلامات Hl}‏ عليها "7 يُحْمَب من 
خلال المعادلة التالية: 
P(Y) = SPA =x "PY = y | xo = x7")‏ 


ادقن 





والمعنى المباشر لتلك المعادلة هو: حصر مسارات التحول في سلسلة 
العلامات '7؛ التي تنشأ بأطوال مختلفة من 7 ويُرْمَز لها بالرمز “د 
(ويُطلق عليها Caj‏ اسم سلسلة ماركوف). بالإضافة إلى البحث عن احتمال 
de‏ ومن بين ذلك فإن احتمال حدوث كل مسار من مسارات السلسلة 
* يتم حسابه من خلال الجمع بين احتمال التغير في هذا المسار بالإضافة 
إلى احتمال المخرجات. إن سلسلة ماركوف 3 وتَسلْسئل العلامات 7 الخارجة 
منها جميعها تنشأ من نموذج واحد كامن لماركوف dbs Sy HMM‏ 
المخرجات ۲ يمكن مشاهدته مباشرةء أما تسلسل الحالات × فهو كامن 
.(hidden)‏ 


slas s HMM 
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(Markov assumption) فرض ماركوف‎ 





P(X,, = t+ |X; = x)= P(X = + |X, =x) 





حيث تُعَبّر 7* فى المعادلة السابقة عن تسلسل الحالات» التي يرمز له 
;lb‏ . وفرض ماركوف يُعبَّر عن أن احتمال وصول 
سلسلة ماركوف إلى حالة محددة لا يحدث إلا في اللحظة ؛ المرتبطة بحالة 


سلسلة مار كوف. 
output-independence ) Gl—a ial Goo Jiu dl‏ 
:(assumption‏ 





P(Y, =x, LY = Xp Say") = PY, = 9, |X, =x, X 





ret = X41) 


1 


حيث تُعَبّر ‏ في المعادلة السابقة عن سلسلة المخرجات Fiat‏ 


إن الفرض المستقل عن المخرجات od oe‏ احتمال ظهور مجموعة 
علامات معينة في اللحظة ؛ يرتبط ارتباطا وثيقا بمقدار التحول (من ” إلى 
+١‏ ) الذي يحدث في اللحظة نفسها. 

وفي إحدى نماذج ماركوف الكامنة ۷١40ء‏ نجد أن احتمال توليد 
M gògail‏ من السلسلة 77 يُحْسَب من المعادلة: 


7 
PO == DY [PX Aa LX, ع‎ (70 = 


altel rel 











Y, | X, = XX a = m) 
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"- النموذج النحوي للعنصر WN‏ مقارنة بين كل من النموذج المُعتمد على 

النحوء ونموذج ماركوف الكامن HMM‏ 

إن طريقة حساب النمط المُعْتمد عل النحو للعنصر ١‏ (نموذج الرّتّبة 
21-1 لماركوف) بسيط وعملي ويُسْتَخْدم على نطاق واسع في تمييز 
الأصوات اللغوية والأنماط اللغوية في مجال اللغات الطبيعية. إلا أن أهم ‏ 
صفة تتميز بها اللغات الطبيعية هي الاتجاه نحو التركيب» وعلى العكس من 
ذلك نجد أن النموذج النحوي للعنصر N‏ ما هو إلا نموذجا لغويًا يعتمد على 
إظهار العلاقة بين العلامات بصورة خطيةء ولا يمكنه إلا تمييز العلامات 
التي تَعَبّر عن معلومات البنية السطحية للغة (عادة ما يكون ذلك من خلال 
العلامات المُعبّرَة عن الرموز والكلمات وأنواعها النحوية) وما بينها من 
مظاهر Jai‏ فقط عن علاقات التجاور في النصوص اللغوية؛ ومن قَمٌ لا 
يمكنها استقراء حالات التراكيب اللغوية؛ ولذلك فإن النموذج النحوي للعنصر 
اا يُستَخْدَم على نطاق مجدود في التعبير عن اللغات الطبيعية بطبيعتها 
المركبة. 

يُعتبر نموذج ماركوف الكامن 110404 هو الشكل المُطوّر من نموذج 
ماركوف التقليدي. فنموذج ماركوف التقليدي يكتفي بوصف التُول الذي 
يحدث لكل حالة من الحالات اللغوية بشكل عشوائيء أما نمسوذج ماركوف 
الكامن ciai HMM‏ حدثين عشوائيين: الحدث العشوائي الأول يصف 
احتمال ظهور العلامة اللغوية والحالة التي تكون عليها؛ أي أن المُخرجات 
تكون دالة في الحالة؛ أما الحدث العشوائي الثاني فلا يصف إلا علاقة JAN‏ 
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التي تحدث بين الحالات. وبالنسبة إلى المستخدم العادي» فإن ما يراه هو 
المخرجات فقطء ولا يمكنه أن يشاهد التحول الذي يحدث بين الحالات 
المختلفة؛ أي أن التحول بين الحالات يكون مخفيًا. إن نموذج ماركوف 
الكامن ١۷‏ يشبه الطرق التقليدية في حساب الاحتمالات daa oa P‏ 
محدودية الحالات التي يمكن التعامل معهاء ومن ثم عدم إمكانية وصف 
مستويات التركيب المختلفة في اللغات الطبيعيةا""!. 
4 - تطبيقات نموذج ماركوف الكامن 41 في الذخائر اللغوية 

يمكن التعرف على التطبيقات الحقيقية لنموذج ماركوف الكامن HMM‏ 
في معالجة اللغات الطبيعية من خلال ما يتم في عمليات ترميز ذخيرة لغوية. 

وصف المشكلة 

نفترض أن لدينا سلسلة من الكلمات 02-017" » ونريد توصيف تلك 
السلسلة من حيث الأنواع النحوية لها “٠٠2-٠7‏ ونظرً! إلى انتشار ظاهرة 
اللبس اللغوي في تمييز الأنواع النحوية للكلمات» فمن الممكن أن يقابل 
السلسلة الواحدة من الكلمات عدة سلاسل من أنواع الكلمات» هذا بالإضافة 
إلى أن سلسلة أنواع الكلمات التي نريد الحصول عليها ستجعل قيمة المعادلة 
oles PROB )©1:62:---:67 | Wis Wase Wr)‏ قيمة أكبر سلسلة من 
الأنواع النحوية للكلمات!" !. 
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وباستخدام قانون بايز Bayes.‏ للاحتمالات يمكننا كتابة المعادلة 
السابقة بالصيغة التالية: 
PROB(Ws W3... Wr | C1€3,...,€)X PROB(C,,C3,...,C)‏ 





P(N Was... Wr) 
EES PROB(W,s Was... Wr | Cis Canan €r) dle نخ بطل‎ 
gisa PROB Cantr) المعلومات المتعلقة بالمفردات» ويُطلّق على‎ 
اللغوي» ونظر! إلى ثبات المقام بالنسبة إلى سلاسل الكلمات المتساوية فإن‎ 
المعادلة السابقة يمكن اختصارها إلى المعادلة التالية التي تَحْسب أكبر سلسلة‎ 
من أنواع الكلمات.‎ 






PROB(W,, W2... Wr | G1,C3,...,C7 ) X PROB(C, C,..., C7) 
ويمكننا وضع مستوى أعلى من الفروض للمعادلة السابقة: إن احتمال‎ 
ورود الكلمة الحالية يتم التوصل إليه من النوع النحوي للكلمة؛ والنوع‎ 
النحوي لهذه الكلمة مرتبط فقط بنوع الكلمة السابقة لها. وفي النهاية يتم‎ 
التعبير عن الموضوع بالكامل من خلال المعادلة التالية:‎ 


7 
II P(e; | Cys Cases Cj) PCW; | Ci) 


i=2 





T' =arg max p(w) p(w la)ple) 





حيث تشير * إلى سلسلة الكلمات التي يتم ترميزها في النهاية» 
وتشير (.)2 إلى الاحتمال. 





(1) قانون بايز هو إحدى النتائج المهمة لنظرية الاحتمالات ويقوم بحساب التوزيع 
الاحتمالي الشرطي للمتغير العشوائي 8 بمعلومية المتغير العشوائي 8. (المترجم) 
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من المعادلة السابقة يمكننا أن نستخرج المستوى الأول والثاني من 
نموذج ماركوف الكامن :HMM‏ حيث إن المستوى الأول لنموذج 1114181 
يُعَبّر عن أن النوع النحوي للكلمة الحالية لا يرتبط إلا بنوع الكلمة السابقة 
عليها. وتكون المعادلة بالتفصيل كما يلي: 


2 
T* = arg max p(c,) p(w, le) [z(c | جرع .نوع ون‎ PCW; Le) 


i=2‏ سول 





s 
° 


حيث PCG Nin) Si‏ عن احتمال تغير الحالة في نموذج 1ء 
PONTE jos,‏ عن احتمال توليد الكلمات. 

وبذلك يكون التعبير عن مسألة ترميز أنواع الكلمات قد تم من خلال 
أفضل صيغة لنموذج ماركوف الكامن 5138134: ويمكن التأكد من صحة 
النتائج السابقة فيما يتعلق بحساب احتمال التغير في الحالة واحتمال توليد 
الكلمات من خلال دراسة ذخيرة لغوية سبق ترميزها. 


الفصل SIH‏ 
برامج الفهرسة وتطبيقاتها 


يقدم هذا الفصل تعريفا لبرمجيتين إحصائيتين يتم استخدامهما في 
تطوير الذخائز اللغوية قام بتطويرهما العالم اللغوي سنكلير .(٣أواء١81)‏ وتقوم 
هاتان البرمجيتان بعرض الكلمة التي يتم الاستعلام عنها مع السياقات التي 
وردت فيها الكلمة داخل الذخيرة في كل مرة وردت فيها. ويتمثل الاختلاف 
بينهما في أن كلا منهما تقدم المعلومات التي يتم الاستعلام Gama FE leie‏ 
معايير إحصائية تختلف عن الأخرى؛ وذلك لمساعدة المستخدم في تحليل 
الظواهر اللغوية. فبرمجية كولوكيت 00110866 تقوم بحساب الكلمات القي 
5 توارد مع الكلمة مووضع الببعث بعورة مباتتسرة؛ أما برمجية تيبيكال 
Typical‏ فتحسب التوارد مع الكلمة موضع البحث على مستوى السطر 
بأكمله بغعض النظر عن تجاور الكلمتين معا. وقد تجاوزت النتائج التي حققتها 
هاتان البرمجيتان كل التوقعات Bia bes Ds eons a‏ عالية من 
حيث شیو ع الاستخدام في مجال تطوير الذخائر اللغوية. ويشير المرجع "° 
بالتفصيل إلى العمل الذي قام به سنكلير من خلال هاتين البرمجيتين»ء وسوف 
نشرح ذلك بالتفصيل في الأجزاء التالية: 


أولاً: برمجية كولوكيت COLLOCATE‏ 


تقوم برمجية كولؤكيت 001106866 بداية بحساب عدد مرات تكرار 
كلمة ما داخل جدول الكلمات المُفهؤْرس الذي تم استخراجه؛ بالإضافة إلى 
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احتمال ظهور تلك الكلمة داخل cling -Azgalll 5 253M‏ على هذه المعلومات 
تتمكن البرمجية من حساب درجة وضوح علاقة التصاحب بين هذه الكلمة 
وكلمة أخرى يتم تحديدها سابقا. والمقصود بمدى الوضوح هنا النسبة بين 
احتمال ظهور الكلمة المُرَشحَة لتكوين التصاحب داخل الذخيرة بأكملها وبين 
احتمال ظهورها داخل النص موضع الدراسة. 


١‏ - طريقة الحساب 

في البداية يتم حساب عدد مرات ظهور الكلمة المطلوبة داخل الذخيرةء 
ثم تحب القيم المشاهدة والقيم المتوقعة لكل كلمة من الكلمات JAS) AL Sol‏ 
سجل من سجلات الملف المُهؤرس. وعند حساب التكرار يمكن اختيار إحدى 
الطرق التالية: بعد إهمال حالة الأحرف الكبيرة والصغيرة في الكلمات 
الإنجليزية المفردةء يمكن مراقبة نوع الكلمات بعد حذف علامات التصريف» 
ويمكن أيضًا مراقبة الكلمات موضع الدراسة مع الكلمات التي تتصاحب معها 
سواء من جهة اليسار أو اليمين أو Ara LaS‏ 

المدخلات التي يتم الحساب عليها: ملف التحليل الإحصائي السياقي 
Ge concordance file‏ سياقات الكلمة موضع البحث ینتج عن البرمجية. 
فعندما تظهر الكلمة موضع البحث داخل الذخيرة» تقوم البرمجية بإنشاء قائمة 
من مةه عة شن السجلات + تحتوي الكلمات التي تصاحبت مع تلك الكلمة 
المفتاحية يمينا ويسار! وفقًا لامتداد معين من الكلمات يُطْلّق عليه نافذة. 
وجميع السجلات المّحتواة في تلك القائمة يتكون منها ملف التحليل الإحصائي 
السياقي للكلمة .concordance file‏ ۰ 


WN 
WN 
oo 


في البداية يتم الحصول على قائمة بها معدل تكرار جميع الكلمات عن 
طريق إحصاء يتم على ذخيرة واسعة النطاق. 

بعد ذلك يتم حساب درجة وضوح التصاحب التي يُشار إليها بالرمز 
5 بين الكلمة موضع البحث وجميع الكلمات الأخرى ويشار إليها بالرمز 7 
وتكون معادلة الحساب كما يلي: 


احتمال ظهور الكلمة س داخل ملف 
الفهرسة 


احتمال ظهور الكلمة س داخل الذخيرة 


بأكملها 





‘ EF = fr 6 وم‎ (w) IN corpus عو‎ OF = fi Ted span (w)/ N pun È حد‎ 


* كل منها عن عدد مرات تكرار الكلمة‎ h Plame y Pela 
Nin في ملف سياقات الكلمة وداخل الذخيرة بأكملها على التوالي؛ أما‎ 
عن عدد الكلمات في ملف سياقات الكلمة والذخيرة‎ Leia S pia Vae y 
بأكملها على التوالي.‎ 
المخرجات: عند عرض المخرجات يتم ترتيب الكلمات المصاحبة‎ 
اللكلمة التي يتم الاستعلام عنها وفقا للقيمة المحدّدة لوضوح درجة التصاحب‎ ٠ 
في المعادلة السابقة» ويحتوي كل سجل أربع خانات تضم المعلومات التالية:‎ 
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|( التصاحبات: حيث تُعرّض الكلمات التي يتوافق ظهورها مع الكلمة 


ب) عدد مرات تكرار الكلمة: حيث يُعرّض عدد مرات تكرار 
التصاحب داخل الذخيرة. 


ج) معدل التكرار المتوقع: حيث يُعرض معدل التكرار الاحتمالي 
المتوقع للتصاحب في إطار سياق له طول محدد. 
د) معدل التكرار الحقيقي: حيث يُعرض عدد مرات الظهور الحقيقفي 
للكلمات المتصاحبة مع الكلمة موضع البحث داخل ملف السياقات. 
وعند تنفيذ هذه العملية» يكون هناك اختياران: 
)١(‏ حساب أو إهمال خالة الأحرف. 
lun (¥)‏ أو إهمال معلومات موضع الكلمة. وسوف يتم شرح تطبيق 
هذه العمليات من خلال الأمثلة الثلاثة التالية. على فرض أن الكلمة التي نريد 
الاستعلام عنها هي كلمة ٠'۲٣5”‏ وأن طول السياق هو أربع كلماتء 
سيعرض الجدولان (۱-۳)ء و(۲-۳) النتائج كل على حدة؛ مرة مع إغفال 
التغيرات الصرفيةء ومرة أخرى مع احتساب التغيرات الصرفية؛ حيث 
يَعْرِض العمود الأول من كل جدول الكلمات التي ترد في حالة تصاحب مع 
هذه الكلمةء ويعرض العمود الثاني والرايع على التوالي عدد مرات ظهور 
الكلمة المتصاحبة مع كلمة "37915" في كل من الذخيرة وملف السياقات على 
التوالي. أما العمود الثالث فيعرض قيمة وضوح درجة التصاحب التي تم 


كولوكيت 00106316 هي عرض النتائج مُجمّعة في كل عمود من الأعمدة. 
جدول :)١-۳(‏ مع إغفال التغيرات الصرفية 


الكلمات المتصاحبة | عدد مرات ظهور الكلمة | قيمة وضوح عدد مرات ظهور الكلمة ١‏ 
المُتصاحبة داخل ملف السياقات 












Caches 
Outstreched 
Cache 
Cradled 









































Flailing 

Embargo 
195 1.430 1462 Folded 
154 1.868 1910 Ammunition 
96 1.211 1238 Shipments 
60 0.789 807 Treaties 
594 8.320 8507 Legs 
116 1.703 1741 Waving 
23 0.400 ` 409 | Aloft 
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جدول (۲-۳): مع اعتبار التحولات الصرفية 





عدد مرات ظهور الكلمة. ， 
المتصاحبة داخل ملف السياقات 


: عدد مرات ظهور الكلمة قيمة وضوح‎ A 
المتصاحبة في الذخيرة‎ 












مع كلمة "arms"‏ 






































21 0.431 441 
ا‎ 
96 0.322 329 Cache 
| 97 0.364 372 outstretched 
556 3.708 3791 Flail | 
154 1.868 1910 Ammunition 
23 0.400 409 Aloft 
236 4.604 4707 Fold 
53 1.061 1085 Cradle 
| 21 0.431 441 Buildup 
22 0.465 5 475 Torso 












Strategic 


















83 Fling 

343 Reduction 
292 Conventional 
25 0.601 | Gent 

78 1.980 | 2024 Smugele 
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من الجدول (۲-۳) يمكننا ملاحظة وضوح درجة التصاحب بين كلمة 
"ashe"‏ وكلمة "4۲۳8" بدرجة كبيرة» فقد وصل عدد مرات ظهور 
ala “cache”‏ الذخيرة إلى ۳۲۹ مرةء ومن الجدول )١1-7(‏ يمكننا أن 
نلاحظ أن هذا الرقم يمثل مجموع ظهور كل من كلمتي "268016 
Jala "caches" y‏ الذخيرة. فالتصاحبات اللغوية بين الكلمات داخل الذخيرة 
في الجدول (1-7) قد تم حسابها بين الكلمات التي تظهر معًا بعد استتيعاد 
الإضافات الصرفية لكل كلمة. 

أما الجدول (5-") فيعرض معلومات عن التصاحب بين الكلمات من 
حيث موضع الكلمة المتصاحبة من الكلمة الأساسيةء وفي تلك الحالة احتوى 
الجدول عمودا إضافيًا هو العمود الخامس الذي يحتوي معلومات تشير إلى 
موضع الكلمة المصاحبة. ۰ 
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dais‏ (9-"): يوضح اتجاه التصاحب (تصاحب أيسر 











































































































2 اه عدد مرات‎ 
ب‎ ie | الكلمات المتصاحبة‎ 
المصاحبة‎ We المتصاحبة في‎ ame مع كلمة‎ 
No left 27 0.073 75 Caches 
No right _| 36 0.164 168 Cradled 
Left 65 0.364 | 372 | Outstretched | 
discarded 
Left 488 3.352 3427 Embargo 
discarded 
ا‎ 66 | 0.248 | 254 Embargo 
No left | 153 1.868 | 1910 | Ammunition 
No left 57 0.789 | 807 | Treaties 
195 1.430 | 1462 Folded 
No left 82 1.211 | 1238 Shipments 
No right 105 1.703 | 1741 Waving 
No left 23 0.400 409 Aloft 
Left 468 8.320 | 8507 Legs 
discarded هك‎ 
No right | 249 5.587 | 5712 Strategic 
No left 82 1.847 1888 Reductions 
No right 122 2.817 | 2880 Lifting | 
No right 276 7.000 7157 Conventional 
No left 241 | 6.165 | 6303 | Reductions 
No right 50 1.282 1311 Supplying 
No right 44 1.150 | 1176 | Flung 
No left 33 0.911 | 913 Negotiator 
No left 40 1.229 1257 Explosives 
Noleft | 22 0.721 | 7371 Shipment 
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تشير 166 "no‏ أن التصاحب قد تم من جهة "no right’ Ud «cual‏ 
فتشير إلى أن التصاحب قد تم من جهة اليسار. وإذا كان عدد مرات ظهور 
الكلمة المتصاحبة في جهة من الجهات أكبر من ثلشي قيمته في الجهة 
الأخرىء يتم إهمال التصاحب على الجهة الأخرى التي تحقق عدد مرات 
تصاحب أقل. ويشير all "right discarded” y «'left discarded’ (ye JS‏ 
جهة التصاحب التي تم إهمالها سواء كانت جهة اليسار أو جهة اليمين. أما 
إذا كان الفرق غير كبير بين عدد مرات التصاحب في الجهتين فتترك الخانة 
المخصصة لذلك فارغة. 


TYPICAL åa y ثانيًا:‎ 


تعتمد برمجية تيبيكال tubal Typical‏ على حساب درجة وضوح 
ظهور الكلمات معًا في سطر الفهرسة» ويُستخدم ذلك في تقدير درجة وضوح 
تكرار سطر الفهرسة بأكمله؛ ويساعد ذلك في استخراج أمثلة واقعية ذات 
طبيعة خاصة من داخل الذخيرة. وتكون مدخلات البرمجية عبارة عن ملف 
. توافق وقوع عن كلمة من الكلمات الموجودة في الذخيرةء بالإضافة إلى 
جدول عن معدل تكرار كل كلمة من الكلمات داخل الذخيرة. وبعد ذلك» تقوم 
البرمجية بمعالجة كل سطر من أسطر الملف المفهرس وتَستّخرج أفضل 
سطر يمثل الشكل القياسي للاستخدام. كان التصميم المبدئي لتلك البرمجية 
يهدف إلى محاولة البحث عن الأمثلة النموذجية التي تمثل الاستخدام الحقيقي 
للغة؛ وذلك كي تكون أداة مساعدة للمعجميين في صناعة المعاجم؛ حيث 


as و‎ 


تمكنهُم من البحث عن أمثلة لغوية حقيقية ذات موثوقية. إلا أن استخدام تلك 
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البرمجية على أرض الواقع أسفر عن استخدامات أكثر رحابة لم تكن متوقعة 
في مجال إزالة اللبس الدلالي بين الكلمات. 

من أحد الفروض التي تم استخدامها في تصميم هذه البرمجية: وجود 
درجة معينة من التجاذب بين كل كلمة والكلمات المحيطة بها. ومن هنا فإن ` 
هذه االبرمجية تهدف إلى استخراج جميع التصاحبات اللغوية التي يكون بينها 
وبين الكلمة موضع البحث قوة جذب. 
١‏ - طريقة الحساب 

المدخلات: 

)١‏ جدول تكراري للكلمات داخل ذخيرة واسعة النطاق. 

؟) ملف توافق وقوع عن الكلمات المصاحبة للكلمة موضع البحث يتم 


استخراجه من الذخيرة. 


المخرجات: 

ملف توافق وقوع يتم ترتيبه على أساس درجة القيم المطلقة لكل سطر 
من أسطر الملف المفهرس. 

الخطوات: 


4 a 


إذا تجاوزت أي كلمة ‏ في سياق أحد أسطر ملف السياقات قيمة 
معينةء يتم الحساب وفقا للمعادلة التالية: 


26 


Xx = E = freq mn (w; ) | fi Ed corms (w; ) 
| R N span N corpus 


. حيث تشير 7 إلى معدل التكرار النسبي لعدد مرات ظهور الكلمة ” 
في سياق له طول محددء أما Fe‏ فتشير إلى معدل التكرار النسبي للكلمة '” 
داخل الذخيرة بأكملهاء أي قيمة تكرار الكلمة في الجدول التكراري للكلمات. 

وبعد ذلك يتم استخدام قيمة زد 2-5007 في عمل تصنيف للنتيجة 


كما يلي: 





حيث تشير "7" إلى قيمة محددة تزيد عن حساب نتيجة "5" لجميع 
الكلمات التي تتواتر معًا. ولحساب قيمة 5 لكل كلمتين متصاحبتين يتم تطبيق 
المعادلة التالية: . 





حيث تشير "5" إلى قيمة الانحراف المعياري ويتم حسابها من المعادلة 
التالية: 0 





وفي النهاية يتم جمع قيمة "2" التي تنتج من حساب درجة التصاحب 
بين جميع الكلمات الواردة في السجل المُفهْرس مع الكلمة موضع البحثء 
فنحصل على قيمة رقمية عن هذا السجل يُطلق عليها القيمة القياسية لهذا 
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السجل. ثم ثُرتب السجلات تنازليًا حسب القيمة القياسية لتصاحب الكلمات 
الواردة في السجل مع الكلمة موضع البحث. ويكون شكل المخرجات التي 
تقدمها البرمجية عبارة عن قائمة مكونة من مجموعة من السجلات يحتوي 
كل منها الكلمات التي تتصاحب مع الكلمة موضع البحث» وأمام كل مسجل 
تظهر القيمة القياسية لهذا السجل والسجلات المفهرسة التي تتمتع بقيم قياسية 
متساوية يتم ترتيبها أبجديًا. 

وهنا نود الإشارة إلى أن القيمة القياسية لسجل مفهرس عبارة عن 
تجميع نتيجة 2 لكل تصاحب داخل هذا السجلء الأمر الذي يعكس تقل كل 
عنصر من العناصر المكونة لهذا السجل. وإذا احتوى السجل المفهرس كلمة 
لها نتيجة "2" كبيرة» وكانت القيمة القياسية لهذا السجل مرتفعة؛ فإن 
السجلات المفهرسة الأخرى التي تحتوي كلمات لها قيمة "2" نفسها تكون لها 
القيمة القياسية نفسها. إلا أنه من عيوب استخدام الانحراف المعياري ما يلي: 
عندما يتساوى معدل تكرار بعض الكلمات مع متوسط عدد مرات ظهور هذه 
الكلمات فإن نتيجة "2" لهذه الكلمات تساوي صفرا. ومن أجل التغلب على 
تلك المشكلة» قام سنكلير بحذف السجلات المفهرسة التي لها قيمة قياسية 
مرتفعة؛ التي ترد في مقدمة قائمة السجلات المفهرسةء وبعد ذلك قام بإعادة 
خطوات الحساب السابقة في استخراج قائمة سجلات مفهرسة جديدة لها قيمة 


قياسية مرتفعة. 


؟ - مثال 
paisa oe ae es a‏ 
تصاحبات بعض الكلمات» ففي البداية تم تحديد كلمة "804" ككلمة لها عدد 
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من الدلالات» فمن الممكن أن تعبر عن ارتفاع درجة حرارة الجوء أو عن 
مذاق حرتيفء أو أكل طازجء وما إلى ذلك. 

وفي هذا السياق تقوم برمجية تيبيكال 21ع1م13 بترتيب ملف السياقات 
المستخرج لكلمة 006" وففًا للقيمة القياسية لكل سجل من سجلات الملف؛ 
حيث تقوم بوضع السجلات التي تحتوي تصاحبات متشابهة معا على التوالي 
وفقًا لنتيجة "2". وتُّجِرِي البرمجية عملية البحث واستخراج سجلات ملف 
السياقات في سياق طوله ثلاث كلمات قبل وبعد الكلمة موضع الدراسةء على 
ألا تقل عدد مرات تكرار التصاحب داخل ملف السياقات عن سبع مرات. 
وفي النهاية تم استخراج ملف توافق وقوع كلمة "804" بالإضافة إلى جدول 
معدلات التكرار لتصاحبات هذه الكلمة من ذخيرة إنجليزية تضم مائتي مليون 
كلمة. ويبين الشكل (7-") التالي نتيجة البحث؛ Vale‏ أن الرقم الموجود في 
أول كل سجل يُشير إلى الرقم القياسي لهذا السجلء أما السجل المُفهْرس نفسه 
فيتم وضعه بين العلامتين <>. 
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19476.18 <asackful of guitas shaped like red hot pokers that: 
stab the songs through> 


19476.18 < a sackful of guitars shaped like red hot pokers! 
Visual fireworks: STEVE> 


19476.18 < paims and pampas grass among the red hot 
pokers seem like a feasible and> 


19474.55<like lupins and delphiniums, red hot pokers 
(Kniphofias), mullein> 


19474.55< had gardens with raspberries and red hot pokers. 
Once we spent a week in the> 


19474.55 <their weed-choked snapdragons and red hot 
pokers. If they ask about it,smile> 


15446.13 <doctors found it helped dry vagina, hot 
flushes,sweats, ftension, anxiety and> 


15082.65 <Problems of the menopause such as hot 
flushes,night sweats, dry vagina> 


15076.28 <<FCH>sympyoms, which include hot . 
flushes,sweats, tingling, and> 


15070.74 <in particular can help with hot fushes, night 
Sweats, vaginal> 


13807.29 <an urgent need for the bathroom, hot and cold 
flushes and pins and> 


13790.39 <turn white and that know what I mean. Hot and ' 
cold flushes and that> <M01> Was> 


13790.39 <and pins, and needles <FCH><M38><FCH> hot 
and cold flushes, sweating,> 


- 13579.00 <service was held on a blisteringly hot day. When 
the body was lifted from> 


13574.27 <<LTH>Sunday was blisteringly hot with cars and 
drivers alone> i 
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13539.29 <designed to combat such blisteringly hot days 
whereas Malcolm roars like an> 


13517.17 <said: We have enjoyed a blisteringly hot June, 
along with Scandinavia, the> 


9875.08 <in. This is especially a danger in hot and hummid 
climates, such as the> 


9866.32 <known as‘dropouts’, when played in hot and 
humid climates><LTH>Examination> 


9676.71 <Phil found himself slaving over a hot grill at 
minimum wage while being> 


9027.15 <Summers can be unbearably hot and humid and 
the scenery is flat> 


8424.17 <<CQI> I don’t like slaving over a hot stove cooking 
a good meal and> 


8341.5 <we spent hours lovingly slaving over a hot stove 
making, it’s hardly surprising> 


8334.75 <but when you are slaving over a hot stove in the 
kitchens of the Hotel> 


8334.75 <<t>WOMEN spend hours slaving over a hot stove 
in the kitchen but are banned> 


oe eee eeo ووم‎ 


8135.44 <driving the criminals °’ favourite hot hatchbacks 
cars # who face increases> 


7822.09 <rising insurance costs,even more ‘hot hatchbacks’ 
like the new Citroen ZX> 


7820.46 <aming the new Classics are the hot hatchbacks and 
homologation specials> 


7820.46 <will go straight into group 20, and hot hatchbacks 
can expect to see their> 


7820.46 <born by those owning what they call hot hachbacks 
and sports cars. Er the> 
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7816.97<on 45 high-risk models, mostly hot hatchbacks, was 
swift. New Escort RS> 


7356.70 <display, and where summers can be hot and 
humid, sow in September where> 


7120.72 <sheets (The dough is soft, so in very hot or humid 
weather, refrigrerate it for> 


7174.93 <tin.<t> Baking Note: <FCH> In very hot or humid 
weather, or if your kitchen> 


7037.53 <a day four days in weather so hot and humid that 
several men died. He> 


7035.44 <and miantain a humid atmosphere in hot weather. 
Keep it shaded form the> 


7020.37 <is partly affected by the weather. On hot humid 
days large amounts of pollen> 


7005.79 <attack even without exercise. Very hot or humid 
weather will make it> 


5465.49 <down because you stay dry and have a hot toddy 
when you get home> 


5462.31 <a sherry at the theatre bar, or a ‘hot toddy’ to keep 
the cold at bay.> 


5448.56 <He dipped his tiny beak into a hot toddy after this 
series of knight’s> 


5448.26 <you head off down the slopes- it’s a hot toddy with 
an extremely potent kick> 


5440.70 <but the Club were as cheering as a hot toddy>- 
Even though they seemed> 


5414.71 <leader Paddy Ashdown, branded the ‘hot toddy’ 
budget as a cynical manoeuvre> 


شكل (7-"): نتيجة الاستعلام عن كلمة "ا0ط" 
مُفهرسة تنازليًا حسب الرقم القياسي 


242 


يقدم الشكل aji (Y-Y)‏ الفهرسة لكلمة 701" وفقًا للقيمة القياسية لكل 
سجل. ومن هذا الشكل يمكننا ملاحظة أن أكثر تصاحبات تحتوي "hot" AlS‏ 
هي ey "hot and humid" "hot flushes”‏ إلى ذلك. ويمكننا أن نلاحظ 
كذلك أن أي تغير كبير في القيمة القياسية لسجلات الفهرسة يشير إلى 
استخدام جديد hot" AaS‏ ولذلك فإن التغير الذي يحدث في القيمة القياسسية 
لسطر الفهرسة يمكن أن يشير إلى بداية ظهور استخدام جديد للكلمة موضع 
البحث. 


*- أثر مجموعة المتغيرات التي تحتاجها البرمجيتان على عمليات التحليل 

: fae 

قبل استخدام البرمجيتين الإحصائيتين سالفتي الذكرء ome ell‏ 
المستخدم إدخال ac‏ تحديد اسم 
البرمجية المستخدمة Collocate)‏ أم ‘(Typical‏ وبعد ذلك يقوم المستخدم 
بتحديد الكلمة موضع الدراسة وعدد السجلات التي سيحتويها ملف الفهرسة؛ 
التي سيتم حساب النتائج على أساسها؛ ذلك لأن النتائج تختلف تبعًا لاختلاف 
حجم الملفات التي يجرى التحليل عليها. هذا بالإضافة إلى ضرورة تحديد 
طول النص قبل الكلمة موضع البحث وبعدهاء وأقل قيمة لعدد مرات ظهور 
التصاحبات في إطار هذا الطول. وفيما يلي نعرض بعض الخبرات التي 
اكتسبها سنكلير من استخدام هاتين البرمجيتين. 

)١(‏ حجم ملف المدخلات 

ليس هناك حدود تتطلبها برمجيتا الإحصاء تجاه حجم نص Â ugil‏ 
فكلما زاد حجم نطاق ملف الفهرسة زادت مصداقية النتائج. وتشير الجداول 
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و(*-1) إلى النتائج الإحصائية للتصاحبات؛ التي تم 


(0-0); (=Y) 


التوصل إليها عن طريق استخدام برمجية كولوكيت "00100216" rm‏ 


تحتوي ٠٠ Yarrr‘ Orea‏ سجل على التؤالي» ففي 


ملفات فهرسة 5 


a DE dh five a ذلك‎ 


mb اا و‎ Sie le Niall Kaye 















جدول Y)‏ -4): نت 

































































































الكلمات المتصاحبة مع 3 عدد مرات ظهور الكلمة المتصاحبة. 

| م الذخيرة . |_درجة ال . داخل ملف السياقات‎ hotas  . 
11 0.039 161 | _Contorted 
11 0.167 | 691 | Flushed 
19 0.321 1329 | Grin 

| 26 0.536 2221 Mask 
11 0.304 1260 Fines 
12 0.343 1421 Starvation 
54 1.780 7371 Smile 
19 | 46 2677 Staring 
22 0.8S7 3549 Brave 
27 1.076 4456 Pale 
31 1.391 5760 Expression 
14 0.754 3123 Smiling 
13 0.788 3263 Handsome 
60 3.660 15155 Charges 
185 11.860 49108 Face 
19 1.311 5429 | Tears 
13 0.985 4079 Buried 
22 1.747 7236 Neck 
11 0.964 3993 Touched 
17 1.597 6612 Prospect 
56 5.248 21732 Value 
17 1.773 7341 Thin 
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جدول (5-8): نتيجة التحليل على عدد ٠٠٠٠١‏ سجل مفهرس 
































Sa عدد مرات ظهور الكلمة | قيمة وضوح درجة‎ | | 
aia المتصاحبة في الذخيرة التصاحب‎ ٠ hor 5 
| 23 0.067 69 Volte | 
29 0.159 | 165 a ain 
24 0.165 171 Impassive 
| 22 0.156 161 | Contorted 
12 0.113 117 Sallow 
12 0.116 120 Ashen 
34 0.379 | 392 Adversity 
| 14 0.157 163 Creased 




















0.668 





691 























Flushed 





Shadowed 





















































46 0.879 910 Slap 
24 0.482 499 Tanned 
36 0.738 764 Slapped 
14 0.298 | 308 Bony 
12 0.272 | 282 Brightened 
12 0.274 284 Streaked 
11 0.275 285 | Ruddy 
23 0.612 634 Screwed 
15 | 0.406 420 Beaming 
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ال ىاد ف ايت 




























































































Contorted 

171 Impassive 

89 Broderick 
120 Ashen 

89 Puckered 

111 Reddened 

59 Blotchy 

104 Freckled 

163 Creased 

64 Redder 

161 Puff 
392 Adversity 
691 Flushed 

117 Sallow 
910 Slap | 

69 Sunburned 
170 E 
167 Craggy | 








ونلاحظ من الجداول الثلاثة السابقة أن التصاحبات 
يد اياج EE‏ 
مصداقية أعلى. 


(۲) طول السياق 
يُعْتبّر طول السياق هؤ أحد المتغيراث التي يُطلّب من المستخدم 


تحديدها. غالبًا ما يتم تحديد السياق في اللغة الإنجليزية بأربع كلمات قبل 
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الكلمة موضع البحث وبعدها. فالسياق المصاحب للكلمة هو أحد مؤشرات 
المعنى لهذه الكلمة. فإذا كان لدينا كلمة متعددة الدلالة» فإن السياقات التي ترد 
فيها هذه الكلمة من الممكن أن 和‏ عن معاني تلك الكلمة في حالاتها الدلالية 
المختلفة. ولذلك فإن هناك ضرورة لتحديد السياق المؤثر في الكلمة والذي 
يشير إلى عدد الكلمات التي ترد قبل وبعد الكلمة موضع الدراسة؛ وذلك من 
أجل اختيار طول السياق الذي يُقذم أفضل نتيجة للتحليل. 

فإذا استخدمنا برمجية كولوكيت Collocate‏ 3 دراسة cÂ isa å al‏ 
وفي كل مرة من مرات الاستخدام نقوم بتغيير طول السياق» ونحتفظ بباقي 
المتغيرات دون تغييرء سنجد أن المخرجات التي تقدمها البرمجية تختلف في 
كل مرة. ويشير الجدولان (7-7)؛ و(-6) إلى نتيجة العمل على كلمة 
"هلإ6”؛ وذلك من خلال ملف فهرسة طوله ©٠0٠٠‏ سجلء على ألا تقل عدد 
مرات تكرار التصاحب عن ٠١‏ مرات؛ ولكن مع تغيير السياق؛ حيث يشير 
الجدول الأول إلى النتيجة عندما يكون طول السياق كلمتين قبل كلمة "6لا" 
وبعدهاء والجدول الثاني عندما يكون السياق 5 كلمات قبل كلمة "هله" 
وبعدها. وفيما يلي نعرض نتيجة تشغيل البرمجية على السياقين المختلفين. 
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جدول 人 YY)‏ 
كلمتين قبل كلمة "eye"‏ وبعدها 















































































































الكلمات المتصاحبة مع | عدد مرات ظهور الكلمة 
"eye" is‏ المتصاحبة في الذخيرة 
Beady‏ 99 0.012 12 
o 346 Watchful‏ | 35 | 
Remover‏ 174 0.021 14 
Untrained‏ 249 0.030 13 
Sockets |‏ 296 0.036 12 
Socket‏ 464 0.056 12 
Blind‏ 4941 0.097 81 
Catches‏ 1607 0.194 21 
Naked‏ 3486 0.421 40 | 
Gel‏ 1054 0.127 | 12 
Caught‏ 14201 1.715 133 
Eagle‏ 1912 0.231 18 | 
Witnesses |‏ 3304 0.399 25 
Eye‏ 16359 1.975 121 
Keeping‏ 12294 1.485 76 
Meets‏ 5019 0.606 29 | 
Contact‏ 16184 1.954 90 
Patch‏ 2173 0.262 11 
Witness‏ 4342 0.524 21 
Catching‏ 2510 0.303 12 | 
Keep‏ 48681 588 | 211 
Catch‏ 8595 1.038 36 
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جدول *-6 نتيجة التشغيل على سياق طوله ست 
كلمات قبل كلمة "عوه" وبعدها 































































































الماك المتصاحبة مع كلمة | ال | قيمة وضوج درجة | وتات شل 
eye‏ في الذخيرة . __ | diet da as‏ 
Beholder‏ 119 | 0.043 24 
ae Beady‏ 99 0.036 13 
Remover‏ 174 0.063 20 
Watchful‏ 346 0.125 36 
Glint‏ 241 0.087 21 
Twinkle‏ 249 0.090 18 
f Contour‏ 195 0.071 13 
Retina‏ 221 0 | 14 
Untrained‏ 249 0.090 13 
人 295 Glam‏ 0.107 14 
Sockets‏ 296 0.107 12 
Blink‏ | 397 0.144 15 
Socket‏ 464 0.168 16 
Gel‏ 1054 0.382 20 
Blind‏ 4941 1.790 90 
Catches‏ 1607 0.582 26 
Eye‏ 1 16359 5.926 242 
Makeup‏ 826 | 0.299 12 
Naked‏ 6 | 
Caught‏ | 14201 
Keeping‏ 
Eagle‏ 











ويمكننا أن نلاحظ أن الكلمات المتصاحبة مع كلمة "موه" مثل 


| 


o inl y geh in hel WE ,remover 5 «'watchful’ 5 <"beady’ 
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الجدولين» فضلاً عن أن بعض الكلمات التي لها درجة تصاحب عالية فسي 
ost HE Y (‘witness’s "patch" SLISI B) (Y-Y) Jsa‏ الجدول 
(A-Y)‏ أو أن لها درجة تصاحب ضعيفة. والسبب في ذلك يرجع إلى كون 
الكلمات التي لها درجة تصاحب عالية من خلال السياق الذي يبلغ طوله 
كلمتين ستظهر في السياق الذي يبلغ طوله ست كلمات. ومن هناء فإن درجة 
التصاحب الواضحة لهذه الكلمات في السياق الأقل سوف تَضنْعُف؛ بسبب 
تأثير الكلمات الموجودة في السياق الأكبر في نتيجة المعادلة. هذا بالإضافة 
إلى أن:الكلمات التي لها درجة تصاحب أعلىء أو تلك التي تتمتع بحرية 
سياقية كبيرة سيتم الاحتفاظ بها في جدول التصاحبات المُسْتَخْرَجٍ من السياق 
الذي يبلغ طوله ست كلمات؛ وذلك مثل كلمة "73161 التي لا تظهر إلا بعد 
كلمة '8/اع"؛ ولذلك فقد ضعفت قيمة تصاحبها مع كلمة "©/[6" بسبب الكلمات 
.التي تظهر دائمًا مع كلمة "٥۴"‏ في سياق الست كلمات. وفي الجدول (*- 
(A‏ نجد أن كلمة 860106 لها درجة تصاحب عالية مع كلمة "#ره؛ 
ولكنها لم تظهر في الجدول 7-9؛ وذلك بسيب أن كلمة "77010656 تُستتّخدم 
دائمًا في "in the eye of the beeholder” 3 yyl‏ ففي هذه الحالة 
نلاحظ ¢b "beholder" 4uls cjf‏ & خارج إطار السياق So‏ بكلمتين مع 
كلمة "©لإ©". وحتى يمكن التغلب على هذه الظاهرة»ء يمكننا إضافة معلومة 
تحدد موضمع كلمة التصاحب من الكلمة موضع البحتث عند اس تخدام 
البرمجية» على سبيل المثال الاكتفاء بالكلمات التي تأتي بعد الكلمة موضع ٠:‏ 
البحث أو قبلهاء ففي تلك الحالة سترتفع درجة وضوح التصاحب. 


(؟) الحد الأدنى لعدد مرات ظهور التصاحب 

إن الحد الأدنى لعدد مرات ظهور التصاحب هو تحديد أقل قيمة لعدد 
مرات ظهور التصاحبات التي تتم عليها عملية الحساب داخل ملف السياقات. 
وقيمة هذا المتغير تتحكم بشكل مباشر في عدد التصاحبات التي تقوم 
البرمجية بانتخابها. فإذا كانت حدود هذه القيمة ضعيفة» فسوف تستغرق 
البرمجية وقت تشغيل أطولء وقد ينتج عن عملية التشغيل وجود بعدض 
الأخطاء في النتائج؛ وعلى العكس من ذلكء إذا كانت تلك القيمة كبيرة 
فسوف يؤدي ذلك إلى إهمال التصاحبات التي لها نسبة ظهور واضحة. 

إن الغرض من تحديد عدد مرات ظهور التصاحب بأقل قيمة هو 
استبعاد الكلمات التي بها خطأ في الكتابة أو clad‏ الأعلام وغير ذلك من 
الكلمات التي تظهر مرة أو مرتين داخل الذخيرة. ويمكننا أن نلاحظ من 
الجدول رقم ٩-۳‏ أهمية تحديد عدد مرات ظهور التصاحب بأقل قيمة. 
ويمكننا أن نكتشف من الجدول أن الكلمات الأكثر تمثيلاً للقوة التصاحبية مع 
كلمة "7310 قد ظهرت مرتين في مجمل الذخيرة» وعلى الرغم من أنها 
ظهرت مرة واحدة في تصاحب مع كلمة "2۲۵ فإن هذه الكلمات تتمتسع 
بدرجة تصاحب عالية مع الكلمة موضع البحث. ونلاحظ من الجدول أيضا 
أن كلمة "9807617 بها خطأ في الكتابة؛ حيث ينقصها مسافة فارغة في 
الوسطء والكتابة الصحيحة لها هي "1587 964'. 


جدول (”1-7): تأثير تحديد عدد مرات ظهور 
التصاحب بأقل قيمة في نتيجة البرمجية 








Abst yg عد مراك‎ TIe | Lsi h cla ae | Lakai cuki 
ررر | المتصاحبة داخل ملف السياقات‎ ٠ مع كلمة "0 | المتصاحبة في الذخيرة‎ 
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Mogulled 
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Weasling 


وبصورة عامة» فإن قيمة المتغير الذي يتم إدخاله» ينبغي أن تتغير تبعًا 
لتغير طول السياق. فعندما يكون طول السياق قصيراء تكون تلك القيمة قليلة؛ 
وتزداد هذه القيمة تدريجيًا مع زيادة طول السياق. 
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الفصل الرابع 
ترميز الذخائر اللغوية 


إن تجميع عدد كبير من النصوص في لغة ما وتخزينها في الحاسب 
الآلي. يُكوّن ذخيرة لغوية هائلة الحجم. وبعد عملية التجميع» يسعى الباحثون 
إلى استخراج المعلومات التي يحتاجون إليها من هذه الذخيرة؛ على سبيل 
المثال إنشاء مُعْجَمم لغوي أكثر جودةء أو دليل نحوي يعتمد على بيانات لغوية 
واقعية؛ وذلك من أجل فهم اللغة واستخدامها بشكل سليم وناجح. ولكي يمكننا 
استخراج المعلومات من الذخائر اللغوية المختلفةء فمن الضروري البدء بعمل 
تحليل للذخيرة اللغوية على مستوى واحد أو على عدة مستويات» بالإضافة 
إلى ترميز العناصر التي تنتج عن عملية التحليل داخل متن الذخيرة اللغويةء 
ومن ثُمّ إعطاء قيمة مضافة أعلى إلى الذخيرة. وهذا ما يُطْلّق عليه ترميز 
الذخائر اللغوية. إن عمليات ترميز الذخائر اللغوية تم قبولها على نطاق واسع 
باعتبارها المدخل الأساسي للتعامل مع الذخائر اللغوية. ويناقش المرجع رقم 
[54] بالتفصيل منهجيات ترميز الذخائر اللغوية على عدة مستويات لغوية» 
ونظرا إلى أن سلسلة الكتب الأخرى التي نقدمها في هذا المجال بها شرح 
لمنهجيات ترميز الذخائر اللغوية الصينية» فلن نتناول في هذا الجزء طريقة 
الحساب المتعلقة بترميز الذخائر اللغوية» وسنكتفي فقط بتناول الموضوع من 
حيث معنى الترميزء ونماذج الترميز وأنواعه. | 
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أولاً: معنى ترميز الذخائر 

يمكن تعريف ترميز الذخائر اللغوية كما يلي: هو نوع من التطبيق 
يهدف إلى إضافة معلومات لغوية ومعلومات توضيحية للذخائر الشفهية أو 
التحريرية. ومن الممكن أن تشير كلمة 'ترميز" إلى المنتج النهائي لهذه 
العملية: بمعنى العلامات اللغوية الملحقة بالذخائر اللغوية أو التي تتناثر وسط 
和‏ 
العلامات النحوية» أو الدلالية وما إلى ذلك. ونظرًا إلى أن اللغة الصينية 
المكتوبة لا تحتوي مسافات فاصلة بين حدود الكلمات» فإن عملية ترميز 
الذخائر اللغوية الصينية تشمل مرحلة إضافية تهتم بترميز حدود الكلمات» 
وعادة ما يُستخدم لهذه المرحلة من الترميز مسافة فارغة بين حدود كل 
كلمتين. إن أشهر مثال في عمليات ترميز الذخائر اللغوية وأكثرها قياسية هو 
الترميز النحويء ويُطاق عليه أيضًا ترميز الأنواع النحوية للكلمات أو ترميز 
858. ففي عملية الترميز هذه يتم إضافة علامة أمام كل كلمة من كلمات 
الذخيرة من أجل تحديد نوعها النحوي. فعلى a 公布 /vgn DE Us‏ 
نجد أن علامة "۷9٣"‏ تشير إلى أن الفعل "7۴" ويعني "أعلن" فعل متعم 
لمفعول اسمي. ۰ 

والسبب في قولنا: إن الترميز يحمل معلومات توضيحية هو أن 
الترميز في أقل تقدير عبارة عن منتج يحمل فهم الإنسان للنص موضع 
الترميز. فترميز النصوص الصينية من حيث حدود الكلمات يعني إمكائية 


تمييز الكلمات من بين سلاسل الرموز المتتالية في النصوص؛ التي لا يفصل 
بينها فاصلء بالإضافة إلى وضع ترميز نحوي لتلك الكلمات يوضح نوعها 
النحوي داخل النص وما إلى ذلك» بالإضافة إلى ذلك فإن هناك فرقا بين كل 
من "الترميز"؛ و"الإيضاح" بالنسبة إلى النصوص. ويمكننا أن Sha‏ بين هذين 
النوعين من المعلومات من خلال النصوص التحريرية. فالعلامات الصرفية . 
لنص تحريري يستخدم لها الحروف اللاتينية بما في ذلك علامات الترقيم 
والمسافات. وهذه العلامات يتم التعبير عنها رقميًا بعلامات خاصة داخل 
الحاسب الآلي؛ حيث تشير كل علامة إلى شكل واحد تعبر عنه» بمعنى أن 
العلامات الصرفية الأصلية في النص يقابلها ملف رقمي واحد يعبر عنها. 
وفي أثناء عملية التمثيل هذه قد يفقد النص الأصلي بعض المعلومات 
ody yy pail‏ مثل نوع الخط وحجمه. وهذا أمر مسموح به نظرا إلى أن هذا 
النوع من المعلومات لا يُعَبّر عن جوهر المعلومات اللغوية التي يعبر عنها 
النص. وعلى العكس من ذلك» فإن ترميز أي نص عبارة عن وحدة ما وراء 
si (metalinguistic) 4s‏ أن ما تقدمه عملية الترميز ماهو إلا 
معلومات لغوية عن ذلك النص» وليس مضمون النص نفسه. 

إلا أنه بالنسبة إلى حوار شفهي؛ أحيانا ما يكون هناك صعوبة في 
التمييز بين المعلومات الخاصة بالمضمون وتلك التي تختص بالإيضاح. وفي 
أثناء تحويل اللغة الشفهية إلى لغة تحريرية أو إلى نص رقميء يضطر 
الشخص القائم بالتحويل إلى الجمع بين نظامي العلامات المختص بالمضمون 
والآخر المختص بالإيضاح. وفي معظم عمليات التحويل؛ يتم استخدام 
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الوصف الصوتي بشكل إضافي لمزيد من المساعدة وذلك بالإضافة إلى 
الكتابة الأبجدية؛ ولكن هذا التدخل يتيح إمكانية القراءة الصوتية بشكل 
سطحيء أما فيما يتعلق بالطبيعة المادية أو اللغوية أو الاجتماعية للنص فهذا 
ری که برو كيز ترفن الف قق على شي الال د 
ترميز مستويات التأكيد والتنغيم الصوتي في اللغة الشفهيةء غالبا ما يتم ذلك 
عن طريق الحكم الشخصي للقائم بعملية التحويل من اللغة الشفهية إلى اللغة 
التحريرية» وفي الوقت نفسه يتوقف ذلك على نظام التحليل المُسْتّخْدم. 


ثانيًا: لماذا يتم ترميز الذخائر اللغوية؟ 
一‏ استخراج المعلومات 


لا يمكن اعتبار الذخائر اللغوية ذات فائدة إلا إذا أمكن استخراج 
المعلومات والمعارف منها. وفي الحقيقة فإن استخراج المعلومات من الذخائر 
اللغوية يُحَثّمْ من البداية غرس بعض المعلومات الإضافية» والمقصود ب ذلك 
إضافة علامات الترميز. فالذخائر اللغوية التي تمثل نصوصنا رقمية إذا لم 
a‏ عليها أية عملية من عمليات المعالجة يُطلّق عليها ذخيرة لغوية خام 
ode ns (raw corpus)‏ الذخائر وعلى الأخص الذخائر الخام الصينية 
ينقصها المعلومات الصرفية والنحوية وما إلى ذلك مما يجعل قيمتها ضئيلة 
إلى Se‏ كبير. على سبيل المثال: كلمة "1۴١‏ في اللغة الإنجليزية باعتبارها 
كلمة مضادة في المعنى لكلمة "طعا" كما في is tmy left hand”‏ الوقت 
نفسه يمكن لهذه الكلمة أن تأتي ظرف مكان turn lefe Jii‏ أو اسمًا فنقول 
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ا ou‏ ده". ولكن إذا تم النظر إليها على أنها صيغة الماضي من الفعصل 
"leave"‏ سيتم تحليلها باعتبار ها Led‏ مثل "I left early”‏ ومن هنا فإن كلمة 
"left?‏ لها عدد من الاستخدامات. إلا أن هذا التعدد في المعنى لهذه الكلمة لا 
يمكن تمييزه بوضوح في ذخيرة لغوية خام لم يتم عليها أية عملية من 
عمليات الترميز. وهذا النوع من الذخائر سيكون به قصور شديد إذا تم 
التعامل معه كمصدر من مصادر صناعة المعاجم. أما إذا تمت عمليبة 
الترميز النحوي للذخيرة» فإن كل مرة تظهر فيها كلمة "1۴١‏ سيكون أمامها 
رمز يوضح نوعها النحويء وهذه المعلومات من شأنها أن تساعد في تحسين 
العمل المعجمي. ومثال آخر في مجال التطبيقات الخاصة بتحويل النصوص 
«(Text To Speech) 48 slic (40 gui.) Ay ys pail‏ تخد ان كلمة 1680 في 
اللغة الإنجليزية عندما fled) GLE Ua 65S‏ وعندما تكون فعلاً تنطّق 
/0 : 11/. فإذا كنا بصدد تطوير برمجية ناطقة (بمعنى تحويل مُذخلات 
الحاسب الآلي من نصوص تحريرية رقمية إلى مُخرجات صوتية) فإن هذه 
البرمجية سيتحتم عليها أن تُمَيّز ما إذا كانت كلمة 1080 اسمًا أم فعلاً قبل أن 
تنطقها نطقًا سليمًا. فضلاً عن أن اللغة الصينية تنتشر بها ظاهرة الرموز 
التي لها أكثر من نطقء مثل: الرمز "7" الذي ينطق "14١22"‏ كما في 
"4847" بمعنى بنك» på US "ingx2" Ghirg‏ كلمة "۸" بمعنى المارة. في 
ذلك الوقت وعند القراءة الصوتية للنصوص التحريرية ستكون هناك حاجة 
لترميز الرمز "47" حتى تتمكن الآلة من نطقه بشكل سليم. ومن هنا فإن عمل 
ترميز صرفي ونحوي للذخائر اللغوية من شأنه أن يُقَدّمْ المعلومات التي 
تحتاجها تلك البرمجية الناطقة. 
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؟ - تعدد الاستخدام 
إن المقصود بتعدد استخدام الذخائر اللغوية التي تحمل علامات الترميز 
هو إمكانية إعادة استخدام المصادر اللغوية التي تقدمها تلك الذخائر غير | 
نرف ويعقه البعطن أنه لأحاجة إن إضاغة الوفث والمتجهوة قتي أعسان ٠ ٠‏ 
ترميز شاملة للذخائر اللغوية» وأنه يمكن الاكتفاء بتصميم برمجية ذكية تقوم 
بتمييز الأنواع النحوية للكلمات؛ مثل كلمة 16/6" حيث يتم التعامل معها ! 
باعتبارها صفة إذا جاعت قبل اسم» ويتم التعامل معها على أنها ظرف مكان ‏ / 
إذا جاءت بعد فعل» وهكذا. ولكن تنفيذ الأمر على هذا النحو يشوبه عيبان: 
)١(‏ يشير المثال السابق إلى أننا إذا أردنا تمييز إحدى الكلمات» فمن 
الضروري أن نتعرف سابقًا على نوع الكلمة التي تسبقها. ول ذلك 
فإن تمييز نوع الكلمات لا يمكن النظر إليه بمعزل عن الكلمسات 
المحيطة بالكلمة التي نرغب في ترميزها. | 
(؟) الهدف من عمل الترميز النحوي وغيره من مستويات الترميز 
للذخائر اللغوية هو: تحويل المادة اللغوية التي تحتويها الذخيرة إلى | 
مادة ذات قيمة أعلى» وهذا الغرض يتحقق بمجرد إضافة مستويات 
الترميز المختلفة؛ حيث تتيح هذه العملية الذخيرة للآخرين كي 
يستفيدوا منها. إن عمليات ترميز الذخائر اللغوية مكلفة ومُمتتنفذة 
للوقت؛ ولكن كل ذلك المال والجهد يكون في محله إذا أمكننا تنويع 
استخدامات الذخائر. 
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“'- تعدد الوظائف 

إن الذخيرة التي تتم عليها عمليات الترميز غالبًا ما يكون لها أفداف 
وتطبيقات مختلفة» وهذا ما يُطلق عليه تعدد الوظائف للذخيرة اللغوية. ففي 
الجزء السابق تحدثنا عن وظيفتين مختلفتين. للذخائر اللغوية المُرمّزة وهما 
الاستخدام في صناعة المعاجم وإنتاج تطبيقات uapa ill å aea selil‏ 
التحريرية. ويضاف إلى ذلك أن الذخائر المَّرسَّرَة يمكن أن يَنْنَّجٍ عنها 
تطبيقات أخرى في مجالات هندسة اللغة» مثل الترجمة بمساعدة الحاسب 
واستخراج المعلومات من النصوصء وما إلى ذلك. وهكذاء فإن عمليات 
الترميز من شأنها أن تحقق 'قيمة مضافة" للذخائر اللغوية بكل ما تعنيه 
الكلمة. والترميز النحوي» باعتباره أحد مستويات الترميز الأساسية» ما هو 
إلا تمهيد للمستويات الأعلى من الترميزء. على أساس أن هذا النوع من 
الترميز هو الخطوة الأولى نحو الترميز على مستوى بنية الجملة والترميز 
على مستوى الدلالة. ونظرًا إلى وجود العديد من المستخدمين الذين 
سيستفيدون من الذخائر اللغوية المُرَمّزة» فسيأتي من ضمنهم من يتمكن مسن 
تفعيل استخدامات الترميز بشكل لم يرد في تصور مصممي عمليات الترميز 
من البداية؛ الأمر الذي يزيد من أهمية الأدوار الإضافية التي تلعبها الذخائر 
اللغوية المُرَّمّزة في مجال العمل اللغوي. 
ثالثا: التوحيد القياسي لعمليات ترميز الذخائر اللغوية 

إن مستوى "الخبرة"' الذي يتمتع بة القائمون على ترميز الذخائر اللغوية 
وقياسية علامات الترميز المستخدمة ومدى منطقيتها وقابليتها للاستخدام كلها 
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عناصر يتحدد على أساسها مدى فائدة المعلومات التي بُقدْمُها ترميز الذخيرة 
اللغوية وإمكانية احتوائها على معلومات يمكن التعامل معها. ففي الفترة 
القصيرة من تاريخ علم ترميز الذخائر اللغوية» كانت أنظمة الترميز التي 
يقدمها العاملون على بناء الذخائر اللغوية صعبة الاستخدام من قبل الآخرين 
لدرجة أن هناك بعض الحالات كان يستحيل استخدامها. وحتى يمكن تجنب 
هذه الظاهرة» ينبغي تحقيق المعايير التالية في تصميم أنظمة الترميز: 
-١‏ إمكانية استعادة النسخة الخام للذخيرة اللغوية بعد حذف علامات 
الترميزء وبعبارة أخرى إمكانية استرجاع أصل الذخيرة. 
؟- إمكانية استدعاء المعلومات التي يتم ترميزها بشكل مستقل عن 
الذخيرة» مع إمكانية حفظ النتيجة عند الحاجة إلى ذلك. 
۳- إمكانية قيام مستخدم الذخيرة بالاطلاع على مستندات تحتوي 
المعلومات التالية: 
أ) المنهجية المتبعة في الترميزء أي الحصول على مستندات تحتوي 
وصفا وشرحا للمعايير التي تم الاتفاق عليها في عمليات الترميز. 
ب) مستندات تضم أسماء القائمين على عمليات الترميز والمكان الذي 
تمت فيه والمنهجية المُتبعة. 
é‏ 
ج) شرح تفصيلي لما يتعلق بالخطوات التي اتبعت لضمان جودة 
الترميز؛ وذلك نظلا إلى كثرة حدوث الأخطاء واللبس الذي يحدث 
في أثناء عمليات الترميز بسبب عدم توحيد المعايير المُستخدمة؛ 
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ويُذكر على سبيل المثال: تسجيل المستوى الذي وصلت إليه 
عمليات مراجعة الترميزء والنسبة المئوية للأخطاء التي تم اكتشافها 
في أثناء عمليات المراجعةء والمستوى الذي وصلت إليه عمليات 
توحيد معايير الترميز وما إلى ذلك. | 

د) وضع إشارة للمستخدم مُفادُها أن عمليات الترميز التي تمت على 
Y ad, dill, Cust 3055‏ يمكن كونب و جود قر من colle)‏ 
وأن الذخيرة لا تخرج عن نطاق أنها مصدر لغوي تتحقق الفائدة 
منه عند حد معين فقط. يقتصر الغرض من إتاحة معلومات عن 
المنهجية المتبعة في الترميز على تقديم مرجعية يمكن الاستشهاد 
بها والاستفادة منها وقت استخراج التطبيقات المختلفة من الذخيرة 
اللغوية. وفي تلك الحالةء سيكتشف العديد من المستخدمين أن هناك 
فائدة من استخدام الذخائر اللغوية المُرَمّزة» وأن ذلك أفضل من 
اتباع منهجيات قاموا بتصميمها بأنفسهم؛ لأن هذا العمل يحتاج إلى 
إضاعة العديد من السنوات حتى يمكن إنجازه. 

ه) بناء منهجية للترميز؛ء وحتى يمكن تجنب سوء الفهم وضمان 
حسن استخدام المتعاملين مع الذخيرةء تم الاعتماد على بيانات 
للتحليل تتصف بالوسطية ووجود أساس نظري لها بالإضافة إلى 
إمكانية الاتفاق عليها من أكبر عدد من الناس. وعلى الرغم من 
ختمية تعرض عمليات الترميز ليعض الخلافات النظريةء فإن 
الغرض الأساسي من عمليات الترميز يتجه بشكل أكبر إلى الالتزام 
قدر الإمكان بمدى القبول والفهم على نطاق واسع من المستخدمين. 
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و) أية منهجية للترميز لا يمكن أن ينتج عنها ما يسمى 'بالمعايير التي 
لا تتغير". فقد ثبت من خلال التطبيق العملي أن منهجيات الترميز 
تتجه دائمًا إلى التغيّر. على سبيل المثال» نجد أن نطاق الذخائر 

| التي تم ترميزها قد يتسبب في إعاقة عمليات الترميز في المستويات 

العليا الأكثر تفصيلاً؛ لأن تحقيق الهدف الأساسي من عمليات 

الترميز يتطلب وضع أولوية للتفكير في بعض المعلومات التي 

تخص عدذا من التقسيمات التي تنشأ على أساسها منهجيات الترميز 

AG 

على الرغم من توافر المبادئ الستة سالفة الذكرء فما زال هناك 
البعض يطالب بإقرار نوع من المعايير القياسية في مجال ترميز الذخائر 
اللغوية؛ بالإضافة إلى أن التطبيقات المختلفة في السنوات الأخيرة في هذا 
المجال قد توصلت تدريجيًا إلى إيجاد نوع من التوحيد العلمي لعمليات 
الترميز. ويتمثل أحد أسباب التوجه إلى التوحيد المعياري في الوصول إلى 
مستوى الشيوع والتعميم؛ لأنه ما إن يجد المتعاملون في هذا المجال فائدة من 
. استخدام أحد نماذج الترميزء حتى يُصرٌون على استخدام هذا النموذج لتطوير 
ذخائرهم التي سبق ترميزها. وهناك سبب آخر وهو ما سبق: التأكيد عليه من 
مبدأ تعدد الاستخدامات. فإذا رغب عدد من الباحثين تبادل البيانات أو 
المصادر اللغوية (ذخائر مُرمزة على سبيل المثال) فسوف يكون هذا التبادل 
سهلا بين الجهات المختلفة إذا ما كانت تتبع نموذجًا موخذا للترميز أو على 
الأقل بينها اتفاق على بعض المبادئ الاسترشادية. وفي حالة الحاجة إلى 
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تبادل البرمجيات التي تتعامل مع الذخائر اللغوية فسوف تبرز قضية التوحيد 
القياسي لعمليات الترميز كمطلب أساسي لإمكانية تبادل تلك البرمجيات. 


رابعا: الحدود التي يتم عندها ترميز الذخائر اللغوية 

هناك اختلاف شديد بين الحدود التي تقف عندها عمليات الترميز بين 
كل من اللغتين الإنجليزية والصينية. ويرجع السبب في ذلك إلى عدم وجود 
مسافات تشير إلى حدود الكلمات في اللغة الصينية. وتُعتّبر عملية تقسيم 
سلاسل الرموز في النصوص الصينية إلى سلاسل من الكلمات هي المهمة 
الأولى في عملية ترميز اللغة الصينية للتعرف على حدود الكلمات آليّا. إن 
تمييز حدود الكلمات في اللغة الصينية هو أحد المشروعات الأساسية المهمة 
في علم معالجة اللغات الطبيعية باللغة الصينية؛ وتُحقق تلك الخظوة هدفا 
أساسيًا في مجال معالجة النصوص OLN ps Cn ÚT‏ وحدات المعالجة 
الآلية للنتصوصء وهذا ما ينبغي أن يتم كخطوة أولية يجب التغلب عليها 
بالنسبة إلى المنظومة الكاملة للمعالجة الآلية للغة الصينية. إن عمليات 
المعالجة الآلية للغة الصينية تشمل عمليات الاستعلام عن المعلومات 
واستخراجهاء والترجمة الآلية» والتحليل النحوي وغير ذلك من العمليات 
اللغوية التي لا غنى عنها عند التعامل مع الكلمات باعتبارها الوحدات 
الأساسية للتعامل اللغوي. ومن خلال جهود العلماء على مدى عشرين عامًا 
حققت اللغة الصينية إنجازات كبيرة في مجال التمييز الآلي لحدود الكلمات 
الصينية» وقد وصلت نسبة دقة التمييز إلى حوالي %۹۹ . ولكن ما زالت 
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هناك بعض المشكلات في مجال تمييز حدود الكلمات داخل الننصوص 
الصينية لم يتم حلها بشكل جذري. وتشمل تلك المشكلات: أسماء الأعلام 
الشخصية والجغرافية وأسماء الآلات وما إلى ذلك من الكلمات التي لم جل 
٠‏ في قوائم الكلمات التي يتم التمييز على أساسهاء بالإضافة إلى إشكاليات اللبس 
في تمييز حدود الكلمات. 


وفي الجزء التالي نستعرض المراحل التي تمر بها عمليات الترميز؛ التي 
تم التعارف عليها على مستوى مختلف اللغات: الترميز النحوي (أو ترميز 
الأنو اع «(grammatic tagging) (SLISI å sai‏ والترميز على مستوى بنية 
الجملة «(syntactic annotation)‏ والترميز «(semantic annotation) „Ya‏ 
والترميز على مستوى الخطاب -(discourse annotation)‏ 


-١‏ الترميز النحوي 


كان ذلك هو أول مشروع لترميز ذخيرة لغوية» وقد ثم على ذخيرة 
براون عام ۱۹۷١‏ بجامعة براون الأميركية. وكان ذلك بإشراف عالمَي لغة 


lo tl |‏ عملية الترمیز هما فرانسیس Francis‏ وکوسیرا ۸٣عkcء‏ وتنفیذ 


اثنين من باحثي الماجستير قاما باتباع القواعد المتعلقة بالسياق في تنفيذ هذا 
النوع من الترميز. وتضم مجموعة الترميز الخاصة.بهذه العملية عدد سبعة 
وسبعين رمزا. وهذه الرموز النحوية لا تَمَيّزْ فقط الكلمات من حيث النوع 
النحوي مثل الأسماء والأفعال والصفات وما إلى ذلك» بل تصل إلى 
تصنيفات أكثر تفصيلاً داخل كل نوع؛ مثل تمييز صيغة المفرد والجمع من 
الأسماءء وتمييز الأنواع المختلفة للصفاتء وما إلى ذلك. 
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وقد وصلت دقة النتائج التي حققتها برمجية الترميز النحوي تلك إلى 
, وقد تم تصويب أخطاء الترميز بالمجهود البشري بعد ذلك؛ وفي 
النهاية تم التوصل إلى ei gii‏ فائدة عاليةء ألا وهو ذخيرة براون المُرمّزة 
نحويًا. ويرجع مغزى هذا العمل البحثي إلى أنه أظهر لأول مرة الخصائص 
العامة لترميز الذخائر اللغوية. فمن ناحية» أظهر هذا العمل الفرق بين العمل 
الآلي والعمل اليدوي في ترميز الذخائر اللغوية؛ حيث أكد حتمية أسلوب 
الترميز الآلي» مع ضرورة أن يَتبّع هذه المرحلة عمل يدوي مكثف ومجهود 
شاق في عمليات المراجعة والتصويب. فالترميز اليدوي والترميز الآلي 
عملان يكمل كل منهما الآخرء ولا يمكن بأي حال من الأحوال الاكتفاء 
بالترميز اليدوي فقط في إنجاز تلك المهمة. ومن ناحية أخرى فإن الترميز 
الآلي لا يمكن الاعتماد عليه إلا بعد أن يصل إلى درجة عالية من الدقة في 
Sara‏ 

والمشروع الثاني للترميز النحوي تم تتفيذه عام ۱۹۸١‏ على ذخيرة 
لوب .LOB‏ يتمثل وجه الاختلاف بينه وبين المشروع السابق في: تطبيق 
منهجية الاحتمالات الإحصائية على الذخيرة اللغوية موضع الترميز. وقد 
اعتمد هذا المشروع على ذخيرة براون المُرَمّرَة نحويًا كمصدر للإحصاءات 
اللغوية في حساب احتمال تحول علامتي ترميز نحويتين داخل ذخيرة لوب . 
وغير ذلك من المتغيرات. وقد وصلت دقة برمجية الترميز النحوية تلك إلى 
۷ وأطلق عليها سم 0143781 ومعنى ذلك أنه بالمقارنة بالبرمجية 
الأولى التي اعتمدت على القواعد كمصادر للترميز» فإن دقة الترميز بينهما 
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قد قفزت قفزة واحدة بمقدار .90٠١‏ بعد ذلك» ظهرت تباعًا العديد. من 
برمجيات الترميز النحوي التي اعتمد معظمها على نظرية الاحتمالات 
الإحصائية. والمشكلة الوحيدة في تلك المنهجية هو احتياجها إلى ذخيرة لغوية 
سبق ترميزها للتجريب عليهاء بالإضافة إلى أن طول السياق يكون محدوذا 
في أثناء حساب الاحتمالات» بمعنى ضرورة الاكتفاء بكلمة أو كلمتين يمين 
الكلمة موضع التعامل أو يسارها. وقد بدأت دراسات الترميز النحوي للغة 
الصينية في نهاية الثمانينيات وبداية التسعينيات من القرن العشرين» وكائنت 
أول جهتين تقومان بعمل دراسة عن الترميز النحوي للغة الصينية هما جامعة 
شين خوا وجامعة شان شي. 
" - الترميز على مستوى أبنية الجُمّل 

المقصود بالترميز على ممنتوى أبنية الجُمل إضافة معلومات تبين 
الأبنية النحوية لجمل الذخيرة اللغوية. إن أول من طرح فكرة دراسة ترميز 
الذخائر اللغوية على مستوى بنية الجمل هو العالم إليجارد {Elegard)‏ 
حيث قام هو وتلميذ له عام ۱۹۷۸ بچمل تحليل نحوي لجزء من ذخيرة 
براون (حوالي ١١6٠٠١‏ كلمة). ومع حلول ثمانينيات القرن العشرينء بدأت 
جامعة ناجميجن i VWlancaster) jul ts (Nijmegen)‏ 
إنشاء برمجية يمكنها إجراء تحليل نحوي لذخيرة لغوية. ومع بداية 
التسعينيات» أثبتت بنوك التحليل الشجري i (Tree Banks)‏ الذخائر 
b jaya‏ على مستوى أبنية الجمل هي أحد المصادر المهمة في مجال 
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المعالجة الآلية للغات الطبيعية. على سبيل المثال» في أثناء تمييز الأصوات 
اللغوية ومجال الترجمة بمساعدة الحاسب تكون هناك حاجة إلى برمجية قوية 
للتحليل على مستوى أبنية الجمل. ويصل بنك لانكاستر- آي بي إم 
(1831/:ء)5ق 30 ,1) للتحليل الشجري إلى ثلاثة ملايين كلمة» أما إنشاء بنك 
جامعة بنسلفانيا"""' فقد أضاف قطاعًا عريضًا من مستخدمي هذا النوع من 
المصادر اللغوية؛ حيث استخدمت تشيلبا (618©) من جامعة جون هوبسكن 
بنك التحليل الشجري هذا في تأسيس نموذج لغوي يعتمد على الأبنية 
ld, yal‏ وحَلّت بذلك مشكلة التصاحب اللغوي طويل المدى في النصوص 
الغويةء وحققت التجارب المبدئية لهذا النموذج نسبة دقة عالية في تمييز 
الجمل. ويشير مصطلح بنك التحليل الشجري إلى أن شجرة التعبيرات اللغوية 
هي الوحدة الأساسية في عمل ترميز الذخائر اللغوية على مستوى الأبنية 
النحوية. إن مشروع الترميز على مستوى أبنية الجملة أكثر تعقيدًا وله 
احتياجات أكثر تقدمًا من مستوى الترميز النحوي للكلمات. ولذلك تأتي 
الدراسات المتعلقة بهذا المجال في مرحلة تالية لمرحلة الترميز النحوي 
للكلمات» وإلا فشلت تلك المشاريع وكانت نتائجها في التحليل غير دقيقة. 

وفي أثناء عمل ترميز للذخيرة اللغوية على مستوى أبنية الجمل يمكن 
عمل تحليل نحوي كلي أو جزئي لجمل الذخيرة. ومن خلال تحليل الذخائر 
اللغوية على مستوى أبنية الجمل يمكن التعمق في الاستفادة بالاستخدامات 
التالية للذخائر اللغوية: 


(أ) ابتكار برمجيات لتحليل الذخائر على مستوى أبنية الجمل 

وتطويرها 

إن الاستخدام الرئيس لعمليات ترميز الذخائر اللغوية على مستوى أبنية 
| الجمل هو التدريب على تصميم برمجيات للترميز الآلي لهذا المستوى 
> وتدريبها على الترميز الصحيح: هذا بالإضافة إلى أن هذه البرمجيات من 
العناصر المحورية التي لا غنى عنها في التطبيقات المتعلقة بالمعالجة الآلية 
للغات الطبيعية. إن استخدام الذخائر اللغوية المرمزة على هذا المستوى 
يساهم في تصميم برمجيات لتحليل الذخائر اللغوية على مستوى أبنية الجمل 
تعتمد على نظرية الاحتمالات» الأمر الذي EY‏ إمكانات تلك البرمجيات في 
الترميز على هذا المستوى. وقد صَمّمَ كل من جيلينيك (3611561)» وكوليئز 
(وهذااه©) من جامعة بنسلفانيا الأميركية برمجية تحليل لأبنية الجمل 
باستخدام نظرية الاحتمالات» وللتعرف Yule‏ بالتفصيل يمكنك الاطلاع على 
المرجعين اتا و!66). 

(ب) استخراج المعلومات المتعلقة بالمفردات 

الذخائر اللغوية المرمزة على مستوى أبنية الجمل تحتوي العديد من 
المعلومات الصرفية والنحوية؛ ومن ثمّ يكون لها فائدة في إنشاء المعاجم 


3« 
يس 9 


الإلكترونية. والمعاجم الإلكترونية عبارة عن مصادر ذات أبنية تقتم . 
المعلومات اللازمة عن التغيرات الصرفية التي تحدث للكلمات بالإضافة إلى 
المعلومات النحوية والدلالية؛ وذلك لتغذية أنظمة المعالجة الآلية للغات 


الطبيعية. إن استخدام هذا النوع من الذخائر اللغوية يمكنه أن يقدم للمعاجم 
الإلكترونية معلومات عن تصاحبات المفردات وأطر الاستخدام» بالإضافة إلى 
بعض المعلومات عن استخداماتها في أنواع النصوص المختلفة. 
"- الترميز على مستوى الدلالة 

يتم استخراج المفردات التفصيلية لعملية الترميز الدلالي من المستويات 
اللغوية المختلفة. ففي البداية» يتم عمل ترميز دلالي لكل كلمة من كلمسات 
النصء ويعتمد جوهر هذه العملية على تمييز التعدد الدلالي للكلمات وفقا 
للسياق والتوصل إلى المعنى الصحيح لكل كلمة. ولذلك إذا أردنا التحذث 
بصورة أدقء فإن هذا المستوى من الترميز ينبغي أن يُطْلّق عليه اسم ترميز 
معاني الكلمات أو عملية إزالة اللبس الدلالي بين الكلمات؛ ويُطلّق عليها 
اختصارًا Nord Sense Disambiguation) WSD‏ بالإضافة إلى ذلك 
يمكن ترميز كل جملة من جمل النص من حيث معنى الجملة؛ فعلى سبيل 
المثال؛ يُمُكن استخدام شبكة العلاقات الدلالية التي تنشأ من الحالات النحوية 
للكلمة داخل التركيب من أجل التعبير عن المعنى المنطقي للجملةء أو الاكتفاء 
باستخدام العناصر الدلالية الثلاثة التي تتكون من عنصرين لغويين مع الحالة 
الدلالية التي تربط بينهما للتعبير عن معنى كل وحدة دلالية تتكون منها 
الجملة. والجدير بالذكر أن الباحثين في مركز الأبحاث التابع لشركة 
مايكروسوفت الأميركية قد استخدموا رسميًا العلاقات الدلالية الثلاث 
باعتبارها خلية لغوية وقاموا بتكوين شبكة دلالية هائلة الحجم أطلق عليها اسم 
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مايندنت (1)841507160"'! اعتمادًا على معجمين للغة Lt‏ ية و نتائج التحليل 
النحوي والدلالي لإحدى الموسوعات باللغة الإنجليزية. وتستخدّم شبكة 
ll (4 tila (MindNet) cout,‏ اللبس الدلالي والنحوي» بالإضافة إلى 
استرجاع المعلومات وما إلى ذلك من الأبحاث المتعلقة بحقل المعالجة الآلية 
للغات الطبيعية ومشروعات تطوير هذا العلم. 

0 وفي مجال تحليل الخطاب» فإن أسلوب التعبير عن المفاهيم من الممكن 
أن ينعكس على النصوص أو الشكل الإدراكي الذي يتكون بين المتحدثين. 
ففي الحديث الذي يدور بين الطبيب والمريضص» سوف يستخدم الطبيب 
Ab‏ من التعبيرات الاصطلاحية 
للتعبير عن مستوى معين من التخصص في الحديث» وطبيب آخر قد يستخدم 
كلمة أكثر عامية مثل كلمة 'البطن" حتى يمكنه التواصل مع المريض حسب 
مستواه المعرفي. بالإضافة إلى ذلك ففي مجال البحث عن المعلومات» إذا 
أراد شخص مهتم بالموضة أن يتعرف» من خلال ما تنشره الصحف؛ علسى 
التغير الذي حدث في مجال الأزياء واتخذ من ارتداء المسّروال مثالاً ل ذلك 
ففي أثناء تعامله مع ذخيرة لغوية سيكون من الطبيعي ألا يكتفي بالبحث عن 
كلمة سروال فقطء بل ينبغي له إضافة كلمات أخرى تمثل أنواع السراويل 
مثل "السّروال القصير"؛ و"السسّروال اللصيق (الاستريتش)'؛ و'السروال 
الجينز". و"سروال سباق الخيل" وما إلى ذلك. وهذا ما نطلق عليه في علم 
الدلالة إشكالية الكلمات المتعددة التي لها دلالة واحدة. وبمعنى آخر وجود 
عدد من الكلمات تشير إلى مفهوم واحد في الوقت نفسه. بالإضافة إلى ذلكء 
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نجد أنه في مجال البحث عن المعلومات تكون هناك حاجة إلى حل إشكالية 
الكلمات متعددة الدلالة. فإذا أردنا الآن أن نتعرف على مقدار التغير في 
مجال الموادء. يمكننا أن نبحث بالكلمة المفتاحية "8#" "مواد" إلا أن كلمة 
"HEF‏ "مواد" تلك قد 5 تحتمل معنى آخر هو " "文档‏ 'وثائق”". وأهم مافي 
الأمر هو أن المستخدمين لا تكون لديهم رغبة إلا في الاستعلام عن 
المعلومات التي تهمهم فحسب. 
وتعتبّر الحاجة لحل مثل هذه المشكلات إحدى آليات الترميز الدلالي 
للنصوص؛ بمعنى أن وضع علامة تشير إلى معنى كل كلمة داخل النص 
dies ih)‏ تقرير لمعنى هذه الكلمة وققا للسياق التي وردت فيه. والمثال 
0 المُمْتَخْدّم في الترميز الدلالي يشير إلى نطاق 
دلالي معين ليه الكلمة موضع الترميز وهذا النطاق الدلالي يضم في 
a de‏ | 
وعند إجراء الترميز الدلالي» ينبغي البدء باختيار نظام التصنيف 
الدلالي (أو المفهومي) الذي سيتم اتباعه في عملية الترميز. وفي هذا الإطارء 
ينبغي النظر إلى العناصر التالية بعين الاعتبار: 
)١(‏ أن يكون نظام التصنيف الدلالي المُتبْع متعارف عليه بين جمهور 
علماء اللغة أو علماء اللغة النفسيين. 
(۲) أن يُغطي هذا النظام الكلمات الحقيقية في إحدى اللغات وليس 
جزءا منها. 
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(؟) أن يُمْكن تعديل هذا النظام بمرونة» حتى يسهل تطويعه لخدمة 
مستخدمين آخرين ومجالات أخرى. 

(4) أن يكون حجم الوحدات الدلالية إلمستخدمة مناسبًا. 

)٥(‏ أن يتمتع نظام التصنيف NY‏ بالتدرج البنائي. 

„Š ga أن يعتمد نظام التصنيف الدلالي على معيار قياسي‎ )١( 
ترميز مستوى الخطاب: الترميز على مستوى العلاقة بين المتحدثين‎ -4 

يختلف الترميز على مستوى الخطاب عن المستويات الأخرى من 
مستويات الترميز في صعوبة وضع تعريف محدد له. فعند ترميز معلومات . 
الخطاب لنص من النضوص» يمكن الاستعانة بالجمل كوحدات للترميز» حيث 
يُنظر إلى الجمل على أنها أكبر وحدة للتركيب النحويء وعند ذلك الحد يتم 
ترميز الجملةء بالإضافة إلى تصنيف الجملة وفقّا لوظيفتها في عملية 
الخطاب؛ هذا بالإضافة إلى إمكانية استخدام مفاهيم مثل 'محور الجملة“ 
و"موقع الفاعل" و'موقع المفعول" لترميز بناء الجملة وفقا لهذا النوع من 
المعلومات؛ كما يمكن أيضنًا أن يعتمد هذا النوع من الترميز على التدرج 
البنائي للنص أو شرح العلاقة بين المتحدثين كمفردات للترميز. 

وما نرغب في التأكيد عليه هنا هو علاقات التدرج البنائي للنصء 
وهي إحدى منهجيات الترميز على مستوى الخطاب التي تم تنفيذها حتى الآن 
بشكل عملي على ذخيرة ذات نطاق محدود. وتجدر الإشارة في هذا السياق 
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إلى أن عدد أنظمة الترميز على مستوى الخطاب قليلة إلى حدّ كبير حتى 
الآن. إن عملية ترميز الخطاب باتباع علاقات التدرج البنائي للنص ليست 
وثيقة الصلة بأساليب الترميز الأخرى كالترميز الصرفي والنحوي والدلالي. 
فالترميز الدلالي يهتم بإيضاح معاني الكلمات؛ أما ترميز الخطاب فيهتم 
بإيضاح الأوجه المتعددة للكفاءة اللغوية» ويُقصد بذلك تلك الأمور المتعلقة 
بانتقال المعنى من جزء إلى آخر داخل النص. فإذا لم نتمكن من شرح المعنى 
على هذا المستوى» أصبح أمامنا عائق في فهم هذا الجزء من لغة البشر. 

وقد سبق أن نوقش موضوع الترميز على مستوى الخطاب بشكل 
مكثف في أثناء مؤتمر DAARIG‏ حيث إن الحاجة إلى تفسير الضمائر وما 
تشير إليه؛ وإزالة اللبس المتعلق بهذا الأمر من موضوعات البحث الرئيسة 
التي يهتم بها كل من علماء اللغة التقليديين وعلماء اللغة الحاسوبيين على حدّ 
سواء. وعلى الأخص فإن علماء اللغة الحاسوبيين بدءوا في الاهتمام بالذخائر 
اللغوية التي نخدم في التدريب على هذا النوع من الترميز؛ التي تستخدم 
في اختبار البرمجيات. ففي العقود القليلة الماضية» أصبحت إشكاليات تحديد 
ما تشير إليه الضمائر إحدى القضايا الساخنة في مجالات الترجمة الآلية 
واستخراج المعلومات من النصوص. على سبيل المثال» ما تشير إليه ضمائر 
الغائب 6»/ءط؛»»58»:8 في أحد النصوص التي تتهيأ للمعالجة الآلية. وحتى 
يمكن التغلب على تلك المشكلة كان هناك وجهتان للنظر: الأولى ترى أنه لا 
غنى عن تغذية الآلية بالمعلومات اللغوية ومعلومات العالم الحقيقي حتى 
تتمكن الآلة من تحديد ما تشير إليه تلك الضمائرء أما وجهة النظر الثانية 
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فترى أن الاعتماد على أسلوب الخبرة من الممكن أن يُوَصّل إلى تلك النتيجة 
وهذه المنهجية لا تنتخدم معلومات العالم الحقيقي» بل تكتفي فقط باس تخدام 
المسافة بين الضمير والكلمات السابقة له: بالإضافة إلى المعلومات 
الإحصائية عن الكلمات أو العلامات داخل النص في التوصل إلى ما تشير 
إليه الضمائر. إن الاستعانة بالمنهجية الإحصائية وذخيرة مُرمزة مناسبة من 
الممكن أن يساعد في تجريب وسيلة آلية تعتمد فقط على النصوص في تمييز 
علامات الترميز الخطابي داخل النص. 

قامت جامعة لانكاستر ببناء ذخيرة شجرية لإحالات الضمائر بتمويل 
من شركة آي بي إم. وكانت عبارة عن ذخيرة شجرية تحمل ترميزرًا على 
مستوى أبنية الجمل» وعلى هذا الأساس تمت إضافة رموز خطاب تشير إلى 
علاقات التدرج البنائي داخل النص. وأثبتت تجارب الترميز أن الترميز a‏ 
مستوى الخطاب يمكن تنفيذه بطريقة مُوَحّدة ويتم الحصول على نتائج 
وفيما يلي نقدم بعض أمثلة حقيقية توضح نتيجة الترميز et‏ 
الخطاب الذي قامت به هذه الجامعة. 

:١ مثال‎ 


‘\) the married couple 6) said that<REF=6 they were happy 
with<REF= 6 lot. 


:2 مثال‎ 
' 7) this week’s winner 7) said <REF=7 he had rung (8 <REF 


7 his wife 8) and <REF=7,8 they had spoken to< REF=7,8:2 each 
other. 
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حيث يتم وضع الكلمات التي سبق ذكرها بين قوسين ويسبق هذه 
الكلمات رقم مُفهْرسء ولا يوجد لهذا الرقم إلا مرجعية واحدة داخل النص؛ 
أما الضمير الذي تنوب عنه هذه الكلمات فتوضع قبله علامة REF" je jill‏ 
الرقم المفهرس" أي أنه يُظَّهر الضمير المقابل لتلك الكلمات داخل gail‏ 


اعاب Bilgil‏ 
كلم الذخائر اللغوية 
والدراسات اللغوية 
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تم الاتفاق على أن علم الذخائر اللغوية هو ذلك العلم الذي يعتمد على 
أسلوب جمع النصوص اللغوية الواقعية لدراسة مشكلات علم اللغة. فمن 
حيث المنهجيةء نجد أن هذا الأسلوب ينتمي إلى المنهج التجريبي في البحث 
العلمي» الذي يختلف عن المنهج العقلي الذي اتبعه تشومسكي. ومن هناء فقد 
اهتم الجميع اهتمامًا كبيرًا بتلك الدراسات اللغوية القائمة على ذخائر لغوية. 
وفي حقيقية الأمرء تميزت الدراسات اللغوية الصينية على مدى التاريخ دائمًا 
بالانطلاق من الوقائع اللغوية الحقيقية. إلا أن قصور متابعة الباحثين 
الصينيين للبنية المعرفية على مستوى العالم قد تسبب في تأخر الأبحاث 
الصينية القائمة على ذخائر لغوية مُمَيِكنة في عمل دراسات لغوية لبعض 
الوقت عن الغرب. 
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الفصل الأول 
منهجية الذخائر اللغوية في الدراسات اللغوية 


يتناول هذا الباب بالتعريف أهم تطبيقات منهجية الذخائر اللغوية في 
الدراسات اللغوية. إن أحد أهم استخدامات منهجية الذخائر اللغوية في 
الدراسات اللغوية استخراج البيانات اللغوية التجريبية الأكثر شيوعًا وتقديمها 
. للعاملين في مجال البحث اللغوي. ويبدأ هذا الباب بتعريف القارئ بالتطبيقات 
المختلفة لمنهجية الذخائر اللغوية في حقل الدراسات اللغوية؛ a sy‏ 
بتقديم بعض الأمثلة الحقيقية التي حققت نتائج على أرض الواقع. 
أولاً: الذخائر اللغوية وتطبيقاتها في الدراسات المتعلقة بعلم المفردات 
إن تاريخ اعتماد مؤلفي المعاجم على البيانات اللغوية الواقعية 
واستخدامهم لها في مؤلفاتهم المُعْجمية يسبق ظهور علم الذخائر اللغوية. على 
سبيل المثال سبق أن استخدم allel‏ صمويل جونسون (Samuel Johnson)‏ 
الجمل إلواردة في الأعمال الأدبية في تأليف معجمه. وفي القرن التاسع 
عشرء استخدم معجسم أكسفو ,3 Oxford English ) 43 5jsla3y) 42l‏ 
lila, (Dictionary‏ الاستشهاد (ومناة هه6ه؛ك) لدراسة الاستخدامات 
المختلفة للكلمات وشرحها. وما زالت طريقة جمع الاستشهادات اللغوية من 
اللغة الواقعية مستمرة حتى الآن» إلا أن ظهور الذخائر اللغوية وما صاحبها من ٠‏ 
منهجيات قد عَيّر من أسلوب استقراء مؤلفي المعاجم واللغويين للحقائق اللغوية. 
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فالذخائر اللغوية في الوقت الراهن تعني أن مؤلفي المعاجم بإمكانهم 
الجلوس أمام إحدى شاشات الحواسيب الإلكترونية» وفي ما لا يزيد عن عدة 
ثوان يمكنهم استخراج الأمظة الكاملة التي نَمل الاستخدام الحقيقي لكلمة أو 
تعبيرة لغوية في نصوص يتعدى حجمها مليون كلمة. وهذا لا يعني فقط أن 
إنتاج المعاجم وتطويرها يتم الآن بشكل أسرع مما سبقء بل يعني أيضنًا أن 
تعريف المواد اللغوية يتم بشكل أدق وأكثر شمولية؛ وذلك لأن المواد اللغوية 
يتم استقراؤها من خلال ذخيرة لغوية حقيقية» وهذه الذخيرة تمثل تجمع هائل 
للعينات اللغوية يفوق كثيرًا ما كان عليه الوضع فيما مضى. 

إن استخراج الأمثلة من الذخيرة اللغوية من شأنه أن يمثل تَجَمُّعَا لغويًا 
مهمًا يمكن استخدامه في تحليل أعمق لمعاني المفردات وتمييزها. على سبيل 
المثال: عمل ترتيب أبجدي للكلمات المصاحبة لكلمة ما من جهة اليمين؛ ومن 
ثم يمكن عمل استقراء للأمثلة الحقيقية عن جميع التصاحبات اللغوية التي 
تأتي مع هذه الكلمة في سياق لغوي معين. وبالإضافة إلى ذلك فإن الذخائر 
اللغوية التي يستخدمها مؤلفو المعاجم تحتسوي معلومات تصنيفية حول 
مجموعة هائلة من النصوص اللغوية» مثل اسم مؤلف النصء وجنسه. 
وتاريخ النشرء والشكل اللغوي cal‏ لدرجة أن تلك النصوص تكون مُرَمّزة: 
تحتوي ترميز! للكلمات من حيث النوع والمعنى. وهذه المعلومات من شأنها 
أن تتيح إجراء تصنيف للمعلومات التي يتم استخراجها من الذخيرة وهذا 
يساعد المعجميين في تحديد الاستخدامات المختلفة لكلمة مافي بعض 
المجالات والأشكال اللغوية المختلفة بصورة نموذجية. 


دا 
06 
Ww‏ 


من خلال البرمجيات التي تقوم بحساب درجة التصاحب بين الكلمات 
(سبق الإشارة إليها في الفصل الثالث من الباب الثالث) يمكن استخراج 
مجموعات الكلمات المتصاحبةء وهذا يعني أنه بالإمكان استقراء التعبيرات 
والتصاحبات اللغوية ومعالجتها بشكل أكثر مصداقية مما سبق. فالوخدات 
اللغوية شائعة الاستخدام (501081»21ة:طم) من الممكن أن Js‏ مصطلحا 
تقنيّاء وفي أحيان أخرى قد تكون مثلاً شعبيّاء أما التصاحبات اللغوية فتعتبر 
خيطا مهما في التعرف على معنى الكلمة موضع البحث!©!. إن تمييز هذه 
التصاحبات داخل النصوص يعني إمكانية التعامل معها بشكل جيد كما يحدث 
مع الكلمات المفردة؛ حيث يتم معالجتها في المعاجم أو في بنوك المصطلحات 
الآلية» التي تَْتَخْدّم لإمداد المترجمين والاستعانة بها عند الحاجة. 

وفي الوقت ذاتهء فإن صناعة المعاجم القائمة على ذخائر لغوية تساعد 
المعجميين في استخراج التعاريف اللغوية من الذخائر اللغوية؛ كأن يتم 
استخدام التصاحبات شائعة الاستخدام في ربط المعاني المتعلقة بالكلمات معّاء 
وهذا يساعد المعجميين في تقسيم فهارس الاستخدام للكلمات إلى تصنيفات 
تمثل الاستخدامات المختلفة للكلمة؛ ومن ثم يمكن تقديم معلومات عن معدلات 
تواتر المعاني المختلفة للكلمات من حيث معدلات التكرار. 


ثانيًا: الذخائر اللغوية والنحو 
تبر الدراسات النحوية (أو الدراسات المتعلقة بتركيب الجمل) مثلها 
كمثل الدراسات المتعلقة بعلم المفردات؛ إحدى الأمثلة الواقعية التي تشير إلى 


اعتماد .الدراسات اللغوية على الذخائر اللغوية. وتظهر أهمية الذخائر اللغوية 
في الدراسات المتعلقة بتركيب الجمل في االنقاط التالية: 

(1) تعتبر الذخائر اللغوية بمثابة تمثيل للغة بأكملها. 

(۲) باعتبار أن البيانات اللغوية التي تَقذّمها الذخائر اللغوية بيانات 
تجريبية» فإن الحقائة ئق اللغوية التي تَقَدّمها يمكن ١‏ ستقراؤها بالأساليب 
الإحصائية. 

قبل ثمانينيات القرن العشرينء كانت الدراسات اللغوية التجريبية 
تضطر إلى الاعتماد بصورة أساسية على أساليب التحليل الثابتة. وكان هذا 
النوع من الدراسات يُقَدم وصفا دقيقا للمنظومة النحوية للغة؛ ولكن النتائج 
كان من.الصعب أن ترصد معدلات التكرار الأعلى والأقل بشكل موضوعي. 
ومع ظهور الذخائر اللغوية المُرمّزة على مستوى تركيب الجملة» والتطور 
المستمر لأدوات البحث داخل الذخائر اللغوية» أصبح من السهل إجراء 
التحليل الكمي (quantative analysis)‏ للظواهر النحوية بشكل أكبر مما 

سبق. إن التحليل الكمي للظواهر النحوية على أقل تقدير يقدم للباحثين أفضل 
eile‏ الاستخدام النحوي لتلك الظواهرء بالإضافة إلى كل درجات التحول 
التي تحدث وما إلى ذلك من معلومات. وهذه المعلومات لا تفيد فقط في فهم 
القواعد النحوية للغة DEY!‏ 
بعضها البعض» وفي مجال تعليم اللغات. 
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إن معظم الدراسات النحوية محدودة النطاق التي اعتمدت على الذخائر 
اللغوية كانت تشمل تحليلاً كميًا للبيانات؛ على سبيل المثال الدراسة التي قام 
بها العالم شميت (331١:44نجوطء5)!”؟!‏ عن الربط بين العبارات توصلت إلى 
العديد من المعلومات الكمية عن هذه الظاهرة في ذخيرة لوب 1.08 للغة 
الإنجليزية. وتفيد منهجية الذخائر اللغوية في إحصاء معدلات تكرار أنماط 
الجمل كافة. 

منذ خمسينيات القرن العشرين» انقسم علماء اللغة إلى قسمين كبيرين: 
القسم الأول تبنى في دراسة الظواهر اللغوية المنهج cd(rationalism) .一 El‏ 
والقسم الثاني استخدم الأسلوب الوصفي التجريبي في دراسة الحقائق اللغوية» 
وأولى اهتمامًا كبيرًا بالإحصاء الكمي للظواهر اللغوية في الذخائر اللغوية. إلا 
أن هذين الفريقين لا ينكر أحدهما الآخر كما يعتقد البعض. ففي الحقيقة: هناك 
بعض الباحثين ممن ينتمون إلى الفريق الأول استخدموا الذخائر اللغوية في 
قياس النظريات النحوية التي تنتمي إلى المنهج العقلي. ولم يلجئوا إلى استخدام 
الذخائر اللغوية في عمل التوصيف اللغوي البحت أو توليد النظريات النحوية. 

ففي جامعة نيجمن oy geall 5 45 well (Nijmen)‏ كل من المنهج 
العقلي والمنهج التجريبي في دراسة النحو لبناء نظرية نحوية صورية 
(formal Grammar)‏ 2.55 المنهج العقلي. وبعد ذلك تم اختبار تلك النظرية 
النحوية على الواقع اللغوي المُخزّّن في الذخائر اللغوية الإلكترونية. وكان 
ذلك عن طريق البدء بالاطلاع على آراء جمهور النحاة في شرح تلك 
القواعد واستخدام آرائهم في تصميم نموذج للنحو الشكلي» وبعد ذلك تم تغذية 
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برمجية التحليل النحوي الحاسوبية بهذا النموذج» واستخدامها في تحليل 
الذخيرة اللغوية؛ للوقوف على مدى قدرة البرمجية مستعينة بهذا النموذج في 
تحليل البيانات اللغوية المؤجودة بالذخيرة. وعلى الأساس التجريبي لنموذج 
التحليل النحوي هذا تم تصويب هذا النموذج من خلال الأجزاء التي لم يتم 
تحليلها أو التي حُلَلَت بصورة خاطتة. 

وهناك تفكير آخر للاستفادة من الذخائر اللغوية في عمل التحليل 
النحوي؛ وذلك عن طريق الاستعانة بذخيرة مُرمّرّة على مستوى بنية الجمل» 
ومن خلال البيانات الإحصائية يتم تصنيف القواعد النحوية الواقعية الموجودة بها. 
ويمكن الاطلاع على مثال عن هذه المنهجية في الفصل الثاني من الباب الرابع. 
ثالنًا: الذخائر اللغوية وعلم الدلالة 

تعرفنا من خلال الفصول والأبواب السابقة أنه يمكن الاعتماد على 

ذخيرة لغوية في استقراء الحالات التي تظهر فيها كلمة ما للتعصرف على 
معناها. وهذه المنهجية تستخدم بصورة أساسية في مجال علم المعجمية. 
ولكن بصورة عامة يمكننا القول: إن الذخائر اللغوية تلعب دورًا مهمّا في 
خدمة علم الدلالة؛ حيث يبرز دورها في إمداد علم الدلالة بشروح موضوعية 
تعتمد على أسلوب ديناميكي يتغير حسب طبيعة التغيرات اللغوية. ويتمشل 
أول دور مهم للذخائر اللغوية في علم الدلالة في إمكانية حصر المعاني 
الإضافية للكلمات بشكل موضوعي وفقا للواقع اللغوي. وقد سبق أن أشار 
العالم اللغوي منت (7!)3418844:1591! إلى أن أقسام معاني الكلمات في علم 
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الدلالة والمعاني الأكثر تواترً! في البناء اللغوي يتم تقريرها ووصفها وققا 
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لإدراك علماء اللغة» وهذه هي المنهجية العقلية في التعامل مع اللغة. ولكن 
الحقيقة أن تمييز المعنى ينبغي أن ينطلق من استقراء السياقات والأبنية 
النحوية للجمل وعلم الصرف وخصائص علم العروضء واستخدام الذخائر 
اللغوية من شأنه أن يقدم أمثلة موضوعية على تلك الفزوق الدلالية. 

أما الاستخدام الثاني المهم للذخائر اللغوية في علم الدلالة هو تقديم بنية 
أكثر تماسكا فيما يتعلق بالتصنيف Jal 3 Så y (yfuzzy categor) Aal‏ 
التدريجي في المعنى. ففي علم اللغة النظري يُنظّر عادة إلى التصنيف 
باعتباره تقسيما ثابتا لا يمكن تغييره. وهذا يعني أنه عند التعامل مع كلمة 
معينة» إما النظر إليها على أنها تنتمي إلى نطاق تصنيفي معين» أو لا تنتمي 
به وکن قرت ا اریت في فرع عل الف ات حي ري ل 
فئات الإدراك لا تتصف بالثبات» بالإضافة إلى أن SS‏ 
إلى حد بعيد. ولذلك؛ فالمشكلة لا تكمن في إقرار ما إذا كانت كلمة تند تنتمي إلى 
تصنيف معين أم لا؟ ولكن في احتمال ظهور هذه الكلمة ضمن تصنيف ما 
مقارنة مع احتمال ظهورها ضمن تصنيف آخر. ولا يمكن الحصول على 
هذه المعلومات الاحتمالية بأي حال من الأحوال إلا باستخدام الذخائر اللغوية 
التي تمثل الواقع اللغوي الحقيقي. 
رابعا: الذخائر اللغوية في مجال علم اللغة التداولي وتحليل الخطاب 

الدراسات التي تهتم بتحليل الذخائر اللغوية على أساس علم اللغة 
التداولي وتحليل الخطاب حتى الآن قليلة إلى حدّ بعيد. والسبب الرئيس في 
ذلك يرجع إلى أن مصدر التحليل على المستويين التداولي والخطابي يتمد 
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من العلاقة السياقية بين الجمل بعضها البعض. وعلم اللغة التداولي دائمًا ما 
ale” ade gibi‏ المعنى السياقي٠‏ إلا أن النصوص ik‏ في الذخائر 
اللغوية تفقد جزءً! كبيرًا من السياق الخاص بها. والسبب في ذلك يرجع إلى 
أن الذخائر اللغوية تتجه إلى جمع عينات لغوية صغيرة الحجم وليس 
LS Ca puai‏ يتم حذف 
السياقات الاجتماعية والنصية الخاصة بها. 

وقد تركز جزء كبير من الدراسات المتعلقة بعلم اللغة التداولي 
والمجالات المتعلقة به خارج الصين على اللغة الشفهية. وَعْتَبّر ذخيرة لندن- 
لوند say gl 55.5 (Lund-London)‏ التي تضم نصوصا حوارية. ولذلك 
فإن غالبية تلك الدراسات تم إنجازها على هذه الذخيرة. وكانت أهم 
الإسهامات التي قدمتها تلك الدراسات هي فهم الكيفية التي يتم بها الحوار 
«cg gall‏ وعلى الأخص العلاقة بين الكلمات والتعبيرات اللغوية والجمل 
المكوّنّة للحوار. وقد قدمت العالمة ستنستورم (711)8]6250052:1987] من 
خلال الدراسة التي قامت بها على ذخيرة لغوية تفسيرا كميًا من وجهة نظر 
علم التصنيف حول عينات من الحوارات التي يبادر الشخص بإصدارها 
وأخرى يكون الشخض مشاركا من خلالها في حوار طبيعي. على سبيل 
المثال» في أثناء استقرائها للرسائل اللغوية التي تحمل right Aas‏ وجدت 
tla “alll right" suet oJ‏ ما تاتي بين الحدود الفاصلة بين مرحلتين من 
مراحل الحوار؛ وأن 984 15215" غالبًا ما تُستّخدم في رسالة لغوية تحمل 
معنى right s it's right” Ld cas gill‏ طا" فتحملان معنى التجاوب 
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الحواري بالإضافة إلى التعبير عن معنى التواضع. وهذا الأسلوب الكمي في 
دراسة أساليب الحوار عمّق من M‏ المعرفة البشرية تجاه عدد من 
التصرفات اللغوية. وذلك لأن تلك النتائج قدمت شروحًا تخصصية بما في 
ذلك الخيارات التي تكون أمام المتحدث من خلال وجهة النظر التداولية وأي 
من تلك الخيارات أكثر قياسية وأيها قليل التداول. 


خامسا: الذخائر اللغوية وتعليم اللغات 

عند تأليف المقررات الخاصة بتعليم اللغة دائمًا ما يكون هناك اتجاهان 
مختلفان» أحدهما يمثل المنهجية التجريبية وآخر يمثل المنهجية العقلية. فمن 
ناحية نجد أن العديد من المقررات الدراسية pih‏ الجمل المُؤلفة؛ حيث 
تعتمد تلك الجمل على إدارك من يقوم بتأليفهاء وفي الوقت نفسه تمثل مواد 
لغوية سبق استخدامها. ومن ناحية أخرىء نجد أن الأمثلة التي تقدمها المعاجم 
والمؤلفات المساعدة في تعليم اللغة؛ التي تم بناؤها على ذخيرة كولينز 
كوبويلد (:.آ08111©-وه0111©) تم جمعها على العكس من ذلك باس تخدام 
المنهج التجريبي. وقد اعتمدت الأمثلة التي تم تقديمها من خلال تلك التجربة 
على مصادر حية من الذخيرة اللغوية أو من مصادر لغوية أخرى. 

إن الأخائر اللغوية نُعْتَبَر مصادر مهمة للثمثلة في عملية تعليم اللغة؛ 
وذلك لأن الدارسين في المرحلة المبكرة من دراسة اللغة يكونون في حاجة 
إلى الجمل والمفردات الحقيقية؛ حيث إنهم سيتعرضون لهذه المفردات في 
أثناء اطلاعهم على النصوص التحريرية الحقيقية لتلك اللغة وسيحتاجون إليها 
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في أثناء عملية التواصل اللغوي. وهذه البيانات التجريبية لها الأهمية نفسها 
في تعليم اللغة للناطقين بها أو للأجانب؛ حيث تتجاوز فائدتها نطاق المعنى 
البسيط الذي يدور حول الاستخدام الواقعي للغة. وهناك عدد غير قليل من 
العلماء اعتمدوا على بيانات الذخائر اللغوية في توجيه النقد لمقررات تعليم 
اللغة الموجودة حاليا. 
وكانت الطريقة التي اتبعوها في ذلك متشابهة إلى حدٌّ بعيد؛ حيث 
استخدموا ذخيرة قياسية للغة الإنجليزية مثل ذخيرة لوب 108 وذخيرة 
لندن- لوند (008هم,0-1هدارة) في عمل تحليل لمحتوى المقررات الدراسية 
أو قوائم الكلمات المستخدمة فيها. ثم قارنوا مجموعتي النتائج التي توصلوا 
إليها. فتوصلت معظم الدراسات إلى أن هناك اختلافات جوهرية بين محتوى 
تلك المقررات الدراسية والاستخدام الحقيقي الذي يمارسه به أهل تلك اللغة. 
كما أن هناك بعض المقررات الدراسية أهملت جوانب متعددة لبعض أوجه 
الاستخدام اللغوي المهمة. لدرجة أنه في بعض الأحيان تم التضحية بأكثر 
. الأساليب شيوعًا في اللغة» في مقابل إظهار أساليب أخرى ليس لها مثل هذه 
الدرجة من الشيوح. وكانت النتيجة التي استخلصها كل من العالمين الشهيرين 
La Es (Kennedy) $383 (Mindt)‏ أن المقررات التي لا تقوم 
على أساس من البيانات اللغوية التجريبية من المؤكد أنها ستسير في الطريق 
الخطأ. فمن الضروري اللجوء إلى استخدام الذخائر اللغوية في توجيه عملية 
تأليف المقررات الدراسية؛ ومن ثم إعطاء مزيد من الاهتمام للحقائق اللغوية 


الأكثر شيوعا من حيث الاستخدام. 
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وهناك منهجية خاصة في تعليم اللغات الأجنبية يُطلق عليها اسم 'تعليم 
اللغة للأغراض الخاصة" وتشير تلك الطريقة إلى تعليم اللغة لأغراض 
تختص ببعض مجالات الأستخدام اللغوي» وهذا ما يتعارف عليه الجميع باسم 
تعليم اللغات الأجنبية لأغراض تخصصية؛ مثل تعليم اللغة الإنجليزية لطلاب. 
الطب. إن بناء ذخائر لغوية متعددة المجالات من الممكن أن يساهم في تعليم 
اللغة لتلك الأغراض الخاصة كل في تخصصه. وقد سبق أن قامت جامعة 
العلوم والتكنولوجيا بهونج كونج ببناء ذخيرة للغة الإنجليزية مكوّنة من مليون 
كلمة. وكانت العينات المستخدمة منتقاة من المقررات الدراسية التي 
يستخدمها طلاب تخصص الحاسب الآلي. وبإمكان تلك الذخيرة أن تَقَدّم 
للطلاب العديد من المواد في المجالات التخصصية؛ بما في ذلك قوائم 
المفردات والبيانات الكمية عن طرق الاستخدام اللغوي. وتعمل هذه المواد 
على الاحتياجات الخاصة للطلاب في هذا المجال التخصصيء وهذا بالطبع 
أفضل من تلك التي يتم استخراجها من ذخائر لغوية في المجالات العامة. 
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الفصل الثاني 
إحصاء أنماط الجمل في اللغة الصينية 
والدراسات القائفة عليه 


تم ذلك في إطار مشروع رسالة دكتوراه تم تمويلها من صندوق اللجنة 
القومية للتعليم بإشراف الأستاذ الدكتور جاو شو خوا الأستاذ بجامعة اللغات 
والثقافة ببكين» وقد نوقشت الرسالة واعتمدت من قبل مجموعة من الخبراء 
في بكين في العاشر من شهر AY 490 ple Gao}‏ 

-١‏ كانت الأهداف الرئيسة من دراسة إحصاء أنماط الجمل في اللغة 
الصينية ما يلي: 

(أ) إجراء تقطيع على مستوى الجمل لمواد لغوية مُكوّئة من نصوص 
المقررات الدراسية الصينية في المرحلتين الابتدائية والإعدادية 
بالإضافة إلى المقررات الدراسية لتعليم اللغة الصينية للأجانسب 
بجامعة اللغات والثقافة» وقد وصلت النصوص التي تم تقطيعها إلى 
أربعة ملايين رمز صينيء ومن نتائج التقطيع تم عمل منظومة 
لتصنيفات الجمل في اللغة الصينية الحديثة. وبناءً على ذلك؛: تم 
إحصاء معدل تكرار كل نوع من الجمل داخل الذخيرة؛ ومن ثم 
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أمكن تقديم بيانات علمية يمكن الاعتماد عليها في الدراسات متعددة 
الجوانب الخاصة بتعليم اللغة الصينية للأُجانب» وتصميم المقررات» 
ووضع-معايير الاختبارات اللغوية» بالإضافة إلى الدراسات التقابلية 
بين اللغة الصينية وغيرها من اللغات. 

(ب) تقديم ذخيرة لغوية مؤهلة تحتوي البيانات اللغوية الضرورية 
لاستخدام علماء اللغة والعاملين في مجال تعليم اللغة الصينية. 

(ج) تقديم مصادر أساسية تستخدم في مجالات التمييز الآلي لكل من 
حدود التعبيرات اللغوية» وفصل عناصر الجملة آليّاء بالإضافة إلى 
تحليل التركيب النحوي للجمل الصينية آليّا وغير ذلك من الدراسات 
المتخصصة في مجال المعالجة الآلية للمعلومات باللغة الصينية. 

؟ - وقد حقق هذا المشروع البحثي النتائج التالية: 

(أ) عمل تقطيع على مستوى الجمل لمحتؤيات ذخيرة من أربعة ملايين 
كلمةء وتخزين الناتج في صورة رقميةء بالإضافة إلى تحويلها إلى 
بطاقات ورقية تصل إلى مائتي ألف بطاقة للأمثلة من الجمل 
اللغوية مُفهرسة حسب نوع الجملة» وموضنّح عليها المعلومات 
التوثيقية الخاصة بها. 

(ب) عمل تصنيف مشفوع بالإحصاءات عن أنماط الجمل المكونة 
للمادة اللغوية التي تخص نصوص اللغة والأدب المستخدمة في 
المرحلة الابتدائية؛ التي تصل إلى مليونين وثمانمائة رمز وتقسيمها 
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إلى ثلاثة مستويات مبتدئ ومتوسط ومتقدم. وفي الوقت نفسه عمل 
تحليل لتركيب الجمل البسيطة التي تم استخراجها وتخزين النتائج 
في شكل رقمي» وبذلك تم تكوين بنك عن أنماط الجملة البسيطة في 
اللغة الصينية الحديثة. وقد وصل عدد الجمل البسيطة التي تم 
تخزينها إلى ١57537‏ جملة. وبإمكان بنك أنماط الجمل المشار إليه 
أن يقنم معلومات عن الخصائص التركيبية لكل نوع من أنواع 
الجمل الصينية والأمثلة المقابلة لهذه الأنواعء بالإضافة إلى 
المعلومات التالية: ۰ 

-١‏ معدلات استخدام الأنواع المختلفة للكلمات الصينية في الأماكن 
التي تحتلها عناصر الجملة الصينية الستة وهي المسند إليهء 
والمسندء والنعت والحالء ومُكمّل المعنى» بالإضافة إلى توجهات 
المعنى التي يشير إليها كل من النعت والحال والمُكمّل في الجملة. 

asde أنواع الكلمات التي تظهر بين حدود كل من المسند‎ -ï 
في الجملة ومعدلات ظهورها.‎ 

۳- ترتيب العناصر في كل من الحال المُوستّع والنعت المومتع. 

5- الجزء الحاوي للرمز "865" في النعت المُوَسّع» الجزء الحاوي 
"Hh" 52 yl‏ في الحال الموسّع. 

ه- الأجزاء التي تحتوي الأدوات المساعدة المبَيّنة لحالة الفعل 
"37 ,8د ,#8 ,1" وما إلى ذلك. 


205 


- الأمثلة التي تحتوي فعل ومفعول به وما إلى ذلك من معلومات. ٠‏ 

(ج) عمل تحليل جزئي لتراكيب الجمل التي تحتويها نسصوص مادة 
المطالعات الصيئية بجامعة اللغات والثقافة؛ التي يصل حجمها إلى 
٠٠٠‏ كلمة:ء بالإضافة إلى انتقاء الجمل السصعية من تلك 
النصوص وعمل تحليل لجزء منها على مسئويات ثلاثة: ممستوى 
تركيب الجمل» ومستوى الدلالةء ومستوى التداولية. وعمل إحصاء 
عن معدلات: استخدام بعض أنماط الجمل وبعض الأفعال ذات 
الطبيعة الخاصة. 

(د) عمل تصنيف للجمل التي ظهرت فسي نصوص اللخ للغة والأدب 
للمرحلة الابتدائية» نتج عن ذلك التصنيف (المسرد الإحصائي 
لمعدلات تكرار أنماط الجمل الصينية)» و(مسرد أنماط الجمل 
الشائعة في اللغة الصينية الحديثة). وهذين المسردين لهما قيمة 
مرجعية عالية في مجالات الدراسات التقابلية بين أنماط الجمل في 
اللغة الصينية واللغات الأخرى» ووضع معايير اختبارات تحديد 
مستوى إجادة اللغة الصينيةء بالإضافة إلى تأليف مقررات اللغة 
الصينية للأجانب. على سبيل المثال» فيما مضى كانت مقررات 
تعليم اللغة الصينية للأجانب في أثناء شرح المُكمّل المبين للحالة 
الشعورية (أي المكمل الذي يحتوي الرمز “248 Ca le Ss‏ 
so‏ المبين للدرجة) وعادة ما كانت تلك المقررات تشرح هذا 
النوع من المكملات من خلال مثال توضيحي عن طريقة تركيب 
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هذا المكمل: 'مسند إليه+ فعل+ مفعول به+ تكرار للفعل+ 7# + 
المكمل" مثل "518# 45" بمعنى "هو يكتب الرموز الصينية 
بسرعة" وفي الحقيقة أن هذا التركيب قليل التواتر في الاستخدام 
اللغوي الواقعي» ففي نصوص اللغة والأدب للمرحلة الابتدائية التي 
تصل إلى ۲۸٠٠٠٠١‏ رمز لم يظهر هذا التركيب ولو مرة واحدة. 
ولذلك يرى فريق البحث أن الأمر يحتاج إلى إعادة نظر في مدى 
ضرورة شرح هذا النوع من الجمل في المستوى المبتدئ من 
مستويات تعليم اللغة الصينية للأجائب. | 

*- وقد توصل فريق البحث من خلال هذه الدراسة إلى القواعد 

التالية في تعريف الجملة: 

0( ضرورة وجودها في إطار بنائي متكامل. 

(ب) تعبيرها عن معنى متكامل. 

؛- وقد قابل فريق البحث عددًا كبيرًا من الجمل المركبة في أثناء 
عملية تقطيع نصوص الذخيرة إلى جملء وقد عالجوا تلك الجممل 
كما يلي: 

(أ) إذا كانت الجمل الفرعية المُكوّنة للجملة المركبة يمكن أن تنستقل 
بذاتهاء يتم التعامل معها على أنها جملة بسيطة (مع إغفال أدوات 

الربط). : 
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(ب) إذا كانت إحدى الجمل الفرعية يمكن أن تستقل في صورة جملة 
كاملةء يتم التعامل معها على أنها جملة بسيطةء والتعامل مع الجزء 
الباقي من الجملة على أنه جملة ناقصة. 

(ج) إذا كانت الجمل الفرعية المُكوّنة للجملة المركبة لا يمكن أن 
تستقل بذاتهاء يتم التعامل مع تلك الجملة على أنها جملة مركبة. 
بالإضافة إلى أن الجمل الناقصة والجمل المختصرة المُكونة للجمل 
المركبة لم يتم احتسابها في نتيجة إحصاء أنماط الجمل الصينية. 

في المادة اللغوية الممثلة لنصوص اللغة والأدب في المرحلة الابتدائية 

تم تقطيع عدد ۱٤١١۸۷‏ جملةء وعدد ٠١١‏ جملة مختصرة»ء وعدد 51/8 جملة 
ناقصة (مثشل: "4۶# بمعنى ايعود إلى المنزل مساء“ 
و K8 E"‏ بمعنى "ما إن فتح فمه وبداً في الأكل“ 9" "他 抬头 一 看‏ 
بمعنى "ما إن رفع رأسه ليرى)» وعدد ٠٠٠١‏ جملة مركبة (مشل 
"لذ ۲ ل ,6-344" بمعنى "خرج من متاهةء ليدخل في متاهة 
ELESE, ALEE d e'sa‏ " بمعنی " يشي وسطه 
hy‏ ساقه تارة أخرى" أو "$3701 RERA TIEN]‏ 
بمعنى "ما إن تصدر إليهم الأوامز» حتى يشغلوا لوحة الستحكم"» وما إلى 
ذلك). 

انحصرت الدراسة التي قام بها فريق البحث عن أنماط الجمل على 

دراسة أنماط تراكيب الجمل الصينية. وكانت القرائن التي يتم الاعتماد عليها 
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في التمييز بين أنماط الجمل المختلفة تتمثل في طبيعة الأجزاء المُكوئة للجملة 
وطريقة بناء الجملةء بما في ذلك ترتيب الكلمات داخل الجملة وعدد العناصر 
المكونة للجملة؛ بالإضافة إلى أنواع الكلمات المُمَلّة اتلك العناصرء وما إلى ذلك. 

ه- وقد تعمق فريق البحث في الدراسة وقَدّمْ دراستين تكميليتين عن 
خصائص تركيب الجمل في اللغة الصينية: 

(أ) على الرغم من أن تقسيم أنماط الجمل قد تم وفقا لمجموعة من 
الأدلة عن الخصائص التركيبية للجمل» فإن فريق البحث لم يستبعد 
دراسة العلاقة الدلالية بين أجزاء الجملة عند الضرورة. على سبيل 
المثال في الجملة الإسنادية» على الرغم من أن تركيب جميع الجمل 
صغير"؛ فإن العلاقة الدلالية بين العناصر المكونة لتلك الجملة غير 
موحدة؛ ومن الممكن تصنيف هذه الجملة إلى خمسة أنماط فرعية 
مختلفة. على سبيل المثال إذا كان المسند الصغير عبارة عن فعل 
أو تعبيرة فعلية مكوّنة من فعل ومفعولء» تكون العلاقة الدلانية بين 
العناصر الثلاثة لهذه الجملة كما يلي: 

558 . عندما يكون المسند إليه الكبير واقع عليه الفعل. 

۴“ عندما يكون المسند إليه الصغير واقع عليه الفعل. 

۴ عندما يكون المسند إليه الصغير جزءًا من المسند إليه الكبير. 


55 عندما يكون المسند إليه الكبير كلمة معبرة عن المكان. 
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8 » عندما يكون المسند إليه الصغير مشير! إلى المسند إليه الكبير. 
امهنا هو معروف لدى الجميع لا يُعتَبّر النعت جِزءًا من 
ol jal‏ الجملة؛ نظر! إلى عدم إمكانية تأثيره في البنية الأساسية 
للجملة. ولكن في أثناء التطبيقات الحقيقية اكتشف فريق البحث أن 
هناك بعض الجمل لا يستقيم لها المعنى إذا حُذف منها النعت مثل: 
718872" بمعنى. 'رأى يه جونغ تنينا" ولكن إذا أضيف النعت 
تختلف الجملة تماما فشصبح: "17-427 "١‏ بمعنى 
آرأى يه جونغ تتينا Lak Ce fs Jas cL fide‏ مشل 
EU! tines "5G TK BR‏ كومة كبيرة من الجرائد"“ 
و 78~ ۲ 3" بمعنى 'تعرض لخوف وهمي"٠‏ وما إلى ذلك. 
ولذلك فإن النعت يشبه الحال في كونه ذا أهمية في تمييز أنماط 
الجمل. ولذلك فإن تركيب هذا النمط من الجمل ينبغي أن يوضع 
بالصيغة التالية: "مسند إليه+ فعل+ الأداة 37+ نعت+مفعول به" 
they‏ آخر يتمثل في الجمل التي تحتوي الرمز "8" المُعبّر عن 
معنى الملكية أو الوجود مثل " 那 姑 娘 有 一 双 漂亮 的 大 眼睛‏ " 
بمعنى 'تلك الفتاة لها عينان واسعتان جميلتان"؛ ويكون تركيب هذه 
الجملة كما يلي: 'مسند إليه + الرمز 8 + نعت (مكون من عدد 
وكلمة كمية وكلمة وصفية) + مفعول به" ويرجع ذلك إلى أنه في 
هذا النوع من الجمل لا يمكن الاستغناء عن النعت الذي يسبق 
الكلمة المحورية في المفعول به. فنحن لا يمكننا أن نكتفي بالقول: 
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那 姑娘 有 眼睛 '‏ بمعنى "تلك الفتاة لها عينان". وفي الحقيقة' أن 
معنى هذه الجملة لا يعبر عن الملكية بقدر ما يؤكد معنى الوصف 
a BRRR ANA Ja ilal gå‏ 'إن عيني 
تلك الفتاة واسعتان وجميلتان". 
وقد جمع فريق البحث بين منهجية التحليل حسب عناصر الجملة»› 
ومنهجية التدرج في التحليل. ففي أثناء تقسيم عناصر الجملة استعانوا بنمط 
التركيب " نعت + مسند إليه + حال + فعل + مكمل + نعت + مفعول به“ 
. مع اعتبار أن هناك علاقة تدرج بين العناصر وبعضها البعضء وأنها لا تقع 
في مستوى واحد. وعلاقة التدرج هذه تظهر خلال عملية تحليل الجملة. 
؟- فالجملة يتم تقسيمها في البداية إلى جزأين كبيرين هما المسند 
إليه والمسند. يتكون جزء المسند إليه من 'نعت + مسند إليه“ أما 
جزء المسند فيحتوي 'حال + فعل + مكمل + مفعول به". هذا 
بالإضافة إلى أن جزء المفعول به من الممكن أن يكون على النمط 
نعت + مفعول به" كما يظهر من الشكل التالي: 


جزء المسند إليه: تحث + مسند إليه 


nn 
جزء المسند: حال + فعل + مكمل + جزء المفعول يه‎ 


9 


+ مفعول يه 
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(أ) من الممكن أن تدخل التعبيرات اللغوية ضمن بنية الجمل كوحدة 
متكاملة؛ ae yy OS‏ من عناصر الجملة. إلا أن التركيب 
الداخلي لهذه التعبيرات اللغوية ينبغي تحليله خارج إطار تحليل 
الجملة؛ وذلك لأن البنية التركيبية لتلك التعبيرات اللغوية لا تقع في 
المستوى البنائي نفسه الذي يحكم عناصر الجملة الستة (المسند إليه: 
والمسند» والمفعول به» والنعتء والحال؛ (US‏ 

(ب) جميع تراكيب التعبيرات اللغوية المكوّنة من نعت ومنعوت (يكون 
نمط التركيب داخل الجملة على هيئة " نعت + مسند إليه"؛ أو "حال 
+ فعل + مكمل + مفعول به") يتحدد التدرج البنائي لها انطلاقا من 
الكلمة المحورية في التعبيرة اللغؤية؛ أي من اليمين إلى اليسار؛ أي 
أن التوسع في المعنى يحدث من الوحدة الصغرى في اتجاه الوحدة 
الكبرى. وجميع التعبيرات اللغوية التي تتكون من فعل ومكمل» أو 
فعل ومفعول» أو فعل ومفعول ومكملء أو فعل ومكمل ومفعول؛ 
يتحدد التدرج البنائي لها انطلاقا من الكلمة المحورية؛ أي من 
اليسار إلى اليمين» ويحدث التوسع في المعنى بدءً! من الوحدة 
الصغرى وفي اتجاه الوحدة الكبرى. إن الالتزام بهذه المبادئ من 
شأنه أن aye A‏ شاملاً لمراحل تحليل الجملة الصينية. . 

وفيما يلي نشرح مراحل تحليل الجملة الصينية من خلال مثال على 

جملة ذات مسند فعلي: 
"他 哥哥 的 同学 昨天 在 书店 买 到 一 本 新 出 版 的 好 词典 " JL_ sll‏ 
بمعنى ' اشترى صديق أخيه الأكبر أمس من المكتبة إصدار! حديثا لمعجم جيد". 


302 


الخطوة الأولى: البدء بتحديد الكلمة المحورية في المسندء وهي الفعمل 
الخطوة الثانية: طبقا للحدود الفاصلة بين جزأي المفعول به والمسندء 
يتم البحث عن عبارتي الصفة والموصوف الواقعتين في بداية الجملة 
ونهايتهاء ثم الانطلاق من الكلمة المحورية وتمييز التركيب من اليمين إلى 
اليسارء ويتم التوسع وفقا لتدرج البناء. على سبيل المثال: 
#5 في 489۴14 هي تعبيرة من صفة 
EE‏ 


他 哥哥 的 ”同学 
تعبيرة حالية كما‎ ss "一 本 新 出 版 的 好 词典 ”5 "#7 4" تعبيرة‎ 
يوضح الرسم التالي:‎ 


一 本 ”新 出 版 的 好 HR 


وإلى هذا المستوى يكون المسند إليه والمفعول به قد تم تحليلهما. 
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الخطوة الثالثة: يتم الانطلاق من الفعل باعتباره الكلمة المحورية في 
المسندء وتمييز التركيب من اليسار إلى اليمين» مثل: 


买 到 一 本 新 出 版 的 好 词典 
الخطوة الرابعة: الانطلاق من تعبيرة الفعل والمكمل والمفعول؛ وتمييز‎ 
التركيب من اليمين إلى اليسار. مثل:‎ 


昨天 “在 书店 “ 买 到 一 本 新 出 版 的 好 词典 


الخطوة الخامسة: الجمع بين جزأي المسند إليه والمسند؛ أي تكوين 
الجملة كاملة؛ مثل: 


他 哥哥 的 ”局 学 昨天 在 书店 KR 到 一 本 新 出 版 的 好 词典 


人 
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الفصل الثالت 
الأبحاث المتعلقة بعلم المعجمية 


علم المعجمية هو أحد أفرع علم المفردات التطبيقي» ويهتم بدراسة 
مبادئ تأليف المعاجم والتطبيقات المتعلقة بهذا المجال» بمعنى إجراء التأليف 
المعجمي من خلال جمع (lexical item) åpne dlana sii‏ ومقارنتها 
وشرحها وتصنيفها. إن الموضوعات الرئيسة التي يهتم بها علم المعجمية هي 
معانى الكلمات واستخداماتها. ويختلف علم تأليف المعاجم عن غيره من 
المجالات المختلفة لعلم اللغة في الغرب في أن هذا العلم اعتمد منذ نشأته 
وعبر مراحل تاريخه المختلفة على المنهج التجريبي القائم على الذخائر 
اللغوية. ففي عام 1755 اعتمد العالم جونسون cle (Johnson)‏ ذخيرة لغوية 
في جمع الاستخدامات الحقيقية للكلمات؛ Cus‏ جعل من تلك الأمثلة مادة 
لتأليف معجمه للغة الإنجليزية. وفي العقد الأخير من القرن النامن عشرء 
اعتمد معجم أكسفورد للغة الإنجليزية على جمع كمية هائلة من النصوص 
كأساس لتأليف المعجم؛ حيث قدمت تلك النصوص إلى أكثر من ثمائمائة 
متطوع قاموا بقراءتها واستخراج أمثلة عن الكلمات التي سبق تحديدها لهم 
وكتابة تلك الأمثلة في بطاقات: استشهاد ورقية. إلا أن هذه الطريقة في العمل 
تختلف كثيرًا عن المنهجية المتبَعة حاليا. أولاً: لأن تلك النصوص المبكرة 
لتكوين الذخائر اللغوية لم تكن ail ll atid‏ اللغوي؛ بالإضافة إلى أن هؤلاء 
المتطوعين كانوا لا يهتمون إلا بالاستخدامات الخاصة للوحدات اللغوية التي 
يبحثون عنهاء ولم يهتموا بالاستخدامات الشائعة لتلك الكلمات. ثانيًا: لأن 
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تطور تقنيات الحاسب الآلى في عصرنا الحالي قد أتاح للدراسات المعجمية 
القائمة على ذخائر لغوية تميزًا غير مسبوق يخرج عن نطاق توقعات 
السابقين في هذا المجال؛ على سبيل المثال من الممكن تصميم ذخيرة لغوية 
ذات تمثيل لغوي لمنظومة اللغة بأكملهاء كأن تحتوي مواد شفهية بكمية 
كافيةء والقدرة على جمع كميات هائلة من النصوص اللغوية وتخزينها 
وإدارتهاء بالإضافة إلى إتاحة أدوات بحث وإحصاء سهلة الاستخدام يمكن 
الاعتماد عيلهاء وغير ذلك من التطبيقات. ومقارنة بالأسلوب اليدوي» يستطيع 
الحاسب الآلي البحث عن جميع الأمثلة التي تحتوي كلمة معينة داخل ذخيرة 
لغوية يبلغ حجمها عشرات الملايين من الكلمات بسهولة شديدة ودون أن 
يغفل مثالاً واحذاء بالإضافة إلى قدرته على توليد ملف مُفَيْرس لتلك الأمثلة. 
بالإضافة إلى ذلك يستطيع الحاسب الآلي أن يستخدم أساليب أكثر تعقيدًا من 
تلك التي يستخدمها الإنسان في تحليل أية علاقة من علاقات الارتباط بين 
الكلمات. على سبيل المثال عندما يصل عدد مرات ظهور كلمة معينة داخل 
الذخيرة اللغوية إلى آلاف المرات» إذا تم الاعتماد على الإنسان في Se‏ هذه 
المرات» بالإضافة إلى عمل إحصاء للكلمات التي تظهر مع تلك الكلمة يمينا 
ويسارًا في حدود أربع كلمات وتصنيفهاء فإن هذا العمل سيكون في إطار 
المستحيل. أما الآن فيمكن إنجاز هذه المهمة في دقائق معدودة باستخدام أحد 
: أجهزة الحاسوب. 

ولذلك» فإن استخدام الحاسب الآلي بدعم من ذخيرة لغوية ذات نطاق 
واسعء من الممكن أن يساهم في إجراء بحوث استقصائية أكثر عمقا وأكثر 
تعقيدذا حول مجموعة الإشكاليات التي يهتم ببحثها علم المعجمية؛ وهذا ما لم 
يكن متاحًا من خلال العمل اليدوي فيما مضى. 
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مبكر! في الستينيات من القرن العشرين» صممت دار نشر هيريتاج 
(Heritage)‏ الأميركية ذخيرة 73141311] لتأليف معجم لطلاب المرحلة 
الإعدادية. ولكي تضم هذه الذخيرة للكلمات التي يستخدمها الطلاب يصورة ‏ 
حقيقية؛ أي لكي تكون هذه الذخيرة مُمَثَلَة للواقع اللغوي الذي صُممّت من 
calal‏ تم تصميم هذه الذخيرة بعناية فائقة فيما يتعلق بطريقة جمع عينات 
النصوص اللغوية. فقد قام مؤلفو الذخيرة بإجراء دراسة اس تطلاعية دقيقة 
وواسعة النطاق لتحديد المواد التي يتحتم على الطلاب الأميركيين قراءتها 
وتلك التي يُقبلون على قراءعتها في إطار ٠١545‏ نوع من المطبوعات 
الرسميةء ثم تم اختيار عينات عشوائية من تلك المواد في حدود عشرة آلاف 
عينةء على ألا تقل العينة الواحدة عن ٠٠١‏ كلمةء ليصل بذلك حجم الذخيرة 
إلى خمسة ملايين كلمة. بالإضافة إلى ذلك؛ فإن تلك النصوص تنتمي إلى 
۲ موضوعًا؛ ومن ثَمّ أمكن التوصل إلى عمومية استخدام الذخيرة. وعلسى 
هذا الأساس» لم تكتف دار نشر هيرتاج بإصدار معجم طلاب المرحلة 
الإعدادية فقط بل نشرت في ١ e‏ نتيجة الدراسة الإحصائية عن 
معدلات استخدام الكلمات داخل ذخيرة 4۴81؛ التي قام بها العالم كارول 
ITT Soll Abs pis‏ 


أما معجم كولينز كوبويلد (ins CobuildColl)‏ الكبير للغة 
الإنجليزية*”' الذي اشتَهرَ أنه أول معجم على مستوى العالم يتم تأليفه 
باستخدام الحاسب الآلي» فقد تم الانتهاء من إصداره عام ۱۹۸۷ بدعم من 
ذخيرة قاعدة البيانات اللغوية الدولية الصادرة بالتعاون بين دار نشر كولينز 
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وجامعة برمنجهام المسماة اختصارًا بذخير 3 I COBUILD aks.58‏ التي 
وصل حجمها إلى عشرين مليون كلمة. وقد تم بناء الذخيرة بتمويل من دار 
نشر كولينزء أما إدارة تحرير المعجم وتصميم الذخيرة فقد تولى مسئوليته 
العالم سنكلير من جامعة برمنجهام البريطانية. وقد تم الاهتمام بشدة في أثناء 
تصميم ذخيرة كوبويلد أن تكون جميع المجالات Jala iiae‏ الذخيرة: وأن 
تكون الذخيرة مناسبة لمتطلبات العمل المعجمي» وقد ظهر ذلك من خلال 


النقاط التالية: 
)١(‏ تشغل اللغة A‏ 6 من حجم الذخيرة واللغة 
الشفهية JYO ind‏ 


(۲) تمش المادة اللغرية الدخيرء اللغة الإنجليزية القياسيةء ولا تشمل 
اللغة الدارجة. وتَمَثل اللغة الإنجليزية البريطانية بنسبة ۷١‏ 
واللغة الإنجليزية الأميركية بنسبة 9975 أما باقي المناطق الأخرى 
فتَمَئل بنسبة 960. 

BS (Y)‏ المادة اللغوية استخدامات اللغة الإنجليزية المعاصرة فيما بعد 
عام ٠٦۹٠ء‏ ويراعى أن تكون المادة اللغوية حديثة قدر الإمكان. 

)٤(‏ لا تشمل الذخيرة المواد الشعرية والمسرحية والمواد العلمية. 

)٥(‏ الاقتصار على جمع أعمال الكتاب فوق ال ١١5‏ عاماء على ألا 
تقل نسبة الكاتبات عن WYO‏ 


(1 ) (Collins Birminghan University International Language Database) 
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)©( المادة التي يتم جمعها ليست عينات 3 أجزاء من النصوص» بل 
نصوص كاملة أو مختارات من روايات كاملة؛ وذنلك لمصلحة 

إجراء تحليل لغوي عن العلاقات البنائية بين أجزاء النص. 
وقد كان إصدار هذا المعجم بمثابة نصّب تذكاري في عالم المعجميةء 
وكانت أهم ميزة له اعتماده على الواقع اللغوي في اختيار الكلمات 
واستخداماتها وتقديم الشروح لها وغير ذلك من المحاور الأساسية في العمل 
المعجمي. وقد صرح العالم سنكلير رئيس تحرير المعجم أن هذا المعجم لم 
يعتمد على أساوب تأليف الأمثلة التي يتبعه المعجميون» وأن جميع الأمثلة 
التي استخدمها سُسْتَمَدَة من مادة لغوية حقيقية. وأن هذه الصفة Ws om‏ 

جديدًا سيؤثر تأثيرًا كبيرًا في عالم التأليف المعجمي على المدى البعيد. 
وفي عام 1997 ألف العلماء التايوانيون خوانغ جو رن» وتشن كه 
جيان» ولاي تشين شيونغ (معجم الكلمات الكمية للغة الصينية!') التايوانية في 
مجال الصحافة)©”اء ويُعتبر هذا المعجم أول مُعجم للغة الصينية يعتمد في 
تأليفه على ذخيرة لغوية. وينقسم هذا المعجم إلى جزأين رئيسيين: الجزء 
(i)‏ ا eS) ae‏ 
ما كفي BABY‏ الكمية بتغير المعدود مشل "4 5 1ت" بمعنى 'ثلاثة طلاب": 
"四 本 书 "，‏ ; ا و و و لو 
OR ee‏ 
الصينية؛ واللغة العربية بها مثل هذا النو من الكلمات ولكن على نطاق ضيق مع 
بعض الكلمات التي تستحضر كلمة كمية ثابتة كأن نقول: 'ثلاثئة رءوس من الماشية", 


أو عندما تَعَبّر الكلمة الكمية عن وعاء يحتوي الكلمة موضع العد كأن نقول: "خمسسة 
أكواب من العصير”. (المترجم) 
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المتعلق بالكلمات الكمية والجزء المتعلق بتراكيب الكلمات الكمية. يتناول 
الجزء المتعلق بالكلمات الكمية بالشرح استخدامات الكلمات الكمية» بالإضافة 
إلى أنواع الأسماء التي يمكن أن تأتلف معها في تركيب. وينطلق الجزء الذي 
.يتناول تراكيب الأسماء مع الكلمات الكمية من الأسماء في اللغة الصينية: 
مُعَبْرًا عن جميع الكلمات الكمية التي يمكن أن تُمسْتَخدم مع تلك الأسماء. وفيما 
يلي نعرض مثالاً من هذا المعجه(): 












法 
ay 


， 办 法 ， 作 法 ， 手 法 ， 用 法 ， 写 法 ， 疗 法 ， 玩 法 
, E 。 指 方法 或 方式 。 


[ 一般] 个， 项 ， 套 。 [ 种 类 ] 样 ， 式 。 


看 法 ， 说 法 ， 想 法 ， 讲法 ..…,.， o 指 意见 。 [ 一 般 ] 
个 ， 项 ， 点 。 


[ 种 类 ] 派 ， 样 ， 式 。 


【辨析 】 我 们 可 以 说 
点 看 法 ， 这 一 点 说 法 ， 这 一 点 想法 ", 但 是 不 能 说 


宪法 ， 劳动 法 ， 刑法 ， 民 法 ， 交 易 法 ， 选 举 法 ， 国 安 
著作 权 法 ， 保 育 法 ， 国 际 法 ， 军 法 ， 税 法 .……. o 指 各 种 
法 和 通常 不 配 量词 。 


【辨析 】 "宪法 "还 可 以 说 "一 部 完 法 "。 






法 律 条 文 的 内 





)١(‏ سيتم عرض المثال باللغة الصينية كما جاء بالكتاب المصدرء يعقبه ترجمة لما ورد 
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"条 ， 项 ， 款 "编列 ， 如 "民法 第 一 百 八 十 条 第 一 项 第 二 款 ， 
aE A 项 第 五 款 "。 


语法 ， 文 法 ， 句 法 ……。 指 语文 的 规律 。 
[一 般 ] 套 ， 条 ， 个 。 

[3] 能 力 。 

枪法 ， 剑 法 ， 箭 法 ， 刀 法 ， 指 法 


? و‎ l 0 


[种 类 ] HE, Ae 
佛法 ， 魔 法 。 通 常 不 措 配 量词 。 
书法 。 [一 般 ] 幅 ， 张 ， 篇 。 


【辨析 】 e ee 还 有 "他 
的 这 一 手法 写 得 真 好 "这 样 的 说 法 。 


法 
بمعنى طريقة أو منهجية» مثل:‎ ]1[ 
方法 ， 办 法 ， 作 法 ， 手 法 ， 用 法 ， 写 法 ， 疗 法 ， 玩 法 ， 

.… 演 算法 
بمعنى: طريقةء أسلوب» طريقة عمل»ء مهارة يدوية»ء طريقة‎ 
استخدام» أسلوب كتابة» طريقة علاج» طريقة لعبء طريقة حسابء»‎ 

وغير ذلك من الكلمات التي تعبر عن الطريقة أو الأسلوب. 


[في العموم] تَسْتَخْدّم الكلمات الكمية: 2# ,آل3 ， 个‏ وتستخد 
الكلمات الكمية: 25 ,46 ,2 عند التعبير عن فئة أو نوع. 
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أو مثل: 
看 法 ， 说 法 ， 想 法 ， 讲 法 .….。 指 意见 。‏ 
بمعنى: وجهة نظرء طريقة حديث» طريقة تفكير» حُجّة» وغير 
ذلك من الكلمات التي تُعبّر عن الرأي. 
[في العموم] تُسْتَحدَم الكلمات الكمية: كير ,]35 AS,‏ وعند التعبير 
عن فئة أو نوع تَسستَخْدم الكلمات الكمية: 25 RE,‏ 












[تعليق] يمكننا استخدام الكلمة الكمية " "#رمع الكلمات 
:Uw "想法 ， 说 法 ， 看 法‏ 
"这 一 点 想法 ， 这 一 点 说 法 ， 这 一 点 看 法 "‏ 
بمعنى "وجهة النظر هذهء هذه الإفادة» هذه الطريقة في التفكير' 
يمكن 这 一 点 讲法 " J55 ol‏ ". 
[1] بمعنى قانون» مثل: 
宪法 ， 劳 动 法 ， 刑 法 ， 民 法 ， 交 易 法 ， 选 举 法 ， 国 安 法‏ 
著作 权 法 ,保育 法 ， 国 际 法 ， 军 法 ， 税 法‏ ，….… 


بمعنى: القانون الدستوري» قانون العملء القانون الجنائي» القانون 
المدنيء القانون التجاريء قانون الانتخابات؛ قانون الأمن العام» قانون 
حقوق المؤلفء قانون رعاية الطفلء القانون الدولي» القانون العسكري» 
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قانون الضرائب... وغير ذلك من الكلمات التي تعبر عن أنواع 
القوانين. وهذه الكلمات غالبًا ما تسستغني عن الكلمات الكمية. 

لاتعليق] كلمة "256" بمعنى "لقائون الدستوري" لا بُ ستخدم 
معها كلمة كمية فلا يمكن أن نقول 局 到 Daya Ui ,一 部 守法"‏ 
فيمكن ترتيبها من الأكبر فالأصغر فتَسْتَخْدَم معها الكلمات الكمية 
TH, RR‏ ,+4" بمعنى "مادة» بندء نقطة" فمثلا نقول: 


民法 第 一 百 八 十 条 第 一 项 第 二 款 ， 公 司法 第 四 百 一 十 九条 第 
"一 项 第 五 款 


بمعنى "النقطة الثانية من البند الأول من المادة المائة والثمانين من 
القانون المدنيء والمادة الخامسة من البند الخامس من المادة الأربعمائة 
وتسعة عشر من قانون الشركات” 
أو مثل: 
语法 ， 文法 ， 句法 veces‏ 

بمعنى قواعد اللغةء قواعد الأدب» القواعد النحويةء وغير ذلك من 
الكلمات التي تعَبّر عن قواعد اللغة والأدب.: 

[في العموم] تَسْتَحْدم الكلمات الكمية: ^ ,4 ,# 

[۳] بمعنى مهارة أو موهبة أو قدرةء مثل: 

枪法 ， 剑 法 ， 箭 法 ， 刀 法 ， 指 法 …… 
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بمعنى: الرمايةء المبارزة بالسيف» مهارة تصويب السهام» مهارة 
استخدام السلاح الأبيضء مهارة العزف على الآلات الوترية»... 

[في العموم] تَسْتَخْدّم الكلمات الكمية: ۸^ ,4 ,# وعند التعبير 
عن فئة أو نوع سَنْتَحْدّم الكلمات الكمية: WR,‏ 


بمعنى المذهب البوذيء أساليب السحرء وهذه الكلمات لا تستخدم 
أما كلمة "¥" بمعنى "فن الخط' فتسنتخدّم معها كلمات كمية. 
[في العموم] سَسْتَحْدَم الكلمات الكمية 26 ,3/6 ,8!. 
لاتعليق] كلمة "8#" ب EC‏ 
الكلمة الكمية "35" بالإضافة إلى الكلمات الكمية سالفة الذكرء فنقول: 
au "他 的 一 手书 法 写 得 真 好 "‏ "إنه يكتب هذا النوع من الخط 
بشكل رائع". 
وكانت الخطوات التي تم اتباعها لتأليف هذا المعجم التايواني 
المتخصص في تراكيب الأسماء مع الكلمات الكمية كما يلي: 
)١(‏ جمع الأمثلة التي تمثل التصاحبات اللغوية بين الأسماء والكلمات 
الكمية من الذخيرة. 
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as (Y)‏ البيانات التي تم الحصول عليها من الخطوة السابقة حسب 
معدلات التكرار. 
(*) اختصار البيانات السابقة وفقا لتصنيفات علماء اللغفة ومؤلفي 
المعاجم. 
ولذلك فإن من أهم مميزات هذا المعجم ما يلي: 
)١(‏ عدم الاعتماد على استخراج المعلومات من المعاجم السابقة. 
)١(‏ عدم الاعتمام فقط على الرؤية الذاتية للقائمين على تحرير المعجم 
في كتابة مواد المعجم. 
(") استخراج الأمثلة اللغوية موضع الاستشهاد بعددها الكبير بشكل 
مباشر من ذخيرة لغويةء ثم تحليلها وتصنيفها من خلال وجهة نظر 
. علماء اللغة. 
Geiss Goi ia ea‏ الخو ليله 
الظاهرة: بل a‏ بصورة أكبر وقدّمَ شرحًا لأساليب استخدام كل مادة مسن 
مواد المعجم؛ على سبيل المثال؛ oo‏ المعجم تحت كل مادة عرضا يفيد بأكثر 
الكلمات والجمل شيوعًا وتمثيلا في الواقع اللغوي. وتكمن مناطق الاختلاف 
بين هذا المعجم والمعاجم السابقة في أن الكلمات والأمثلة المُنْتَخدمة ليست 
من تأليف محرري المعجم» بل تم اختيارها من ذخيرة لغوية كبيرة الحجم 
a‏ التكرارء ثم معالجتها من وجهة نظر هيئة تحرير المعجم 
وفقا للقواعد التي أشرنا إليها. ولذلك فإن هذا المعجم لا يمكن أن يختلف عليه 
اثنان من حيث قوة التأثير وثراء المادة اللغوية. 
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of Sill Seah‏ استخدام منهجية الذخائر اللغوية من شأنه أن يساهم 
في تطوير الدراسات في علم المعجمية على النحو التالي: 
)١(‏ كم عدد المعاني المختلفة للكلمة الواحدة؟ 


و 


حيث تَعْتَبّر هذه القضية من محاور اهتمام علم المعجمية؛ لأن علم 
الذخائر اللغوية من شأنه أن يُقدّم استقراءً للمعاني المتشابهة أو المختلفة 
للكلمات في السياقات المختلفة من خلال مادة لغوية حقيقية واسعة النطاق» 
ومن Ë‏ لا تكون هناك حاجة إلى الاعتماد على الأمثلة التي يؤلفها المعجميون 
حسب خبراتهم ووجهات نظرهم الخاصة. | 

)١(‏ معدل تكرار ظهور كلمة معينة 

هذا النوع من الدراسات الاستطلاعية داخل الذخائر اللغوية هو ما 
lh}‏ عليه إحصاء معدل تكرار الكلمات» وهذا الإحصاء من شأنه أن يُظهر 
لنا درجة شيوع الكلمةء الأمر الذي يجعلنا نميز بين الكلمات شائعة الاستخدام 
والكلمات النادرة. وهذه المعلومات لها قيمة مرجعية مهمة في تحديد ما إذا 
كانت الكلمة سترد في المعجم أم لاء أو في تأليف مقررات تعليم اللغات أو 
في صناعة المعاجم الإلكترونية التي يُْتَمّد عليها في تطوير أنظمة المعالجة 
الآلية للغات الطبيعية وغير ذلك من المجالات. 

(") ما الكلمات التي دائمًا ما تتصاحب مع كلمة ما؟ 

وهذا ما يُطلق عليه دراسة التصاحبات اللغوية بين الكلمات. فالعالم 
اللغوي فیرٹ )۴1٣۲۲(‏ كانت له مقولة شهيرة هي: "معاتى الكلمات لا تَفْهُم إلا 
من خلال التصاحبات"”. والمقصود بذلك هو أن المعاني المختلفة لكلمة ما 
لا يمكن تمييزها إلا من خلال التصاحبات التي تظهر مع تلك الكلمة: 
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تاها نة النظر هذه لا يتم تمييز gall‏ المختلفة لكلمة ما فقط 
(الإشكالية الأولى فيما سبق)» بل يمكن الاستخدامات المختلفة لتلك 
الكلمةء وكل ذلك لا يتم التوصل إليه إلا من خلال أنماط الاستخدام والعلاقات 
التصاحبية بين الكلمات المختلفة. وتكشف لنا النظرة العامة على الإنتاج 
المعجمي للغة الإنجليزية المنشور بعد تسعينيات القرن العشرين أن جميع تلك 
المعاجم بلا استثناء قد تم على أساس استقرائي لذخيرة لغوية واسعة النطاق. 
ولا يقتصر الأمر عند هذا الحدء بل إن أحدث مُعْجَمَيْن صدرا عن دار نشر 
لونجمان (manLong)‏ هما: (معجم لونجمان للغة الإنجليزية المعاصرة) 
(الطبعة الثانية)!”!» و(معجم لونجمان لتداعيات المعنى باللغة الإنجليزية) 
of79](\447) (Longman Language Activator)‏ وهذان المعجمان 
يهتمان بصورة كبيرة بالدور الواضح الذي تلعبه التصاحبات اللغوية في 
شرح اللغة وتوليدها. وبالنسبة إلى المستخدمين الذين يتعلمون اللغة الإنجليزية 
باعتبارها لغة أجنبية فإن هذه الطريقة في تأليف المعاجم لها أهمية كبرى؛ 
ولذلك يلجأ محررو المعاجم إلى جمع كميات كبيرة من ABA‏ عن 
التصاحبات اللغويةء بالإضافة إلى خروجهم عن المألوف في صناعة المعاجم 
وجمعهم أمثلة عن التعبيرات اللغوية التي تمثل الاستخدامات الثابتة للكلمات» 

sill g‏ ن عليها اسم الكلمات التعبيرية (70:0 856:ام) وفي مجال الدراسات 
المتعلقة بعلم اللغة الحاسوبي والمعالجة الآلية للغات ile fa ianh‏ 
إزالة اللبس الدلالي بين الكلمات؛ التي يُطلق Word)WSD {cial lye‏ 
Lpa Disambiguation‏ من الموضوعات Sd‏ عليها أنها ذات 0 بة 
خاصة. بالإضافة إلى أن ١‏ ستقراء التصاحبات اللغوية على نطاق واسع J‏ 
بمثابة مقدمة ابتكارية لحل هذه المشكلة. 
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(4) كيف يؤثر كل من المجال اللغوي والفترة التاريخية واللغة 
الدارجة وغير ذلك من العناصر غير اللغوية على نماذج استخدام 
الكلمات؟ 
هذا الاستقراء من شأنه أن يساهم في فروق استخدام الكلمات بين 
المجالات المختلفة» أو عملية تطور الكلمات مع تغير الزمن. 

وفيما يلي نقوم بتقديم النتيجة التي توصل (D. Biber) jay allel (gal‏ 
في أثناء استقراء كلمة 2541 (مكتوبة بالحروف الكبيرة للتعبير عن أنها 
إجمال لجميع الحالات الصرفية التي تنشأ عن تلك الكلمة)!80” 
أولاً: استقراء معدل تكرار DEAL Aas‏ 

للاطلاع على جدول معدلات التكرار لكلمة 041 في ذخيرة لوب؛ 
التي يبلغ حجمها عدد مليون كلمة انظر الجدول .٠-٤‏ 

جدول (1-4): جدول معدلات تكرار كلمة D٤۸1‏ 


وغيرها من الكلمات في ذخيرة لوب | 
DEAL‏ 






| 290 | 182 | Dea | 
| 35749 | 52 | Dealing | 
2817 | 25 | Deas | 
| 9068 | 31 | Deae | 
| 7778 | 290 | الإجمالى‎ | 

Ee | 

بيذ 

ERE 














SIGH | 16 | 
APPROACH | 185 | 
| 50 | 





LOOK 
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باعتبارها اسما سواء كانت في صيغة المفرد أم الجمع موزعة حسب 
المجالات في ذخيرة لوب. 1 
جدول )£-¥(: توزيع معدلات تكرار كلمة DEAL‏ 
على المجالات في ذخيرة لوب ۰ 


المجال 


التقارير الإخبارية | .. 





ونظرًا إلى كبر حجم المخرجات في كل تصنيف للمادة اللغويةء فإن 
الأرقام الأولية التي يتم حسابها على معدلات تكرار كلمة .2541 لا يمكن 
الاعتماد عليها بشكل مباشر في مقارنة ارتفاع معدل تكرار هذه الكلمة أو 
انخفاضها في المجالات المختلفة. ولذلك يتم تنسيب هذه المخرجات الرقمية 
إلى وحدة المائة ألف (107) مع اعتبار حجم المادة في كل مجال لحساب 
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المخرج النهائي. وعلى فرض أن الرقم الأولي لعدد مرات التكرار يساوي 
om‏ وحجم ذخيرة التصنيف يساوي 1 والرقم النسبي المشير إلى قيمة 
التكرار يساوي on‏ فيمكن حساب تلك القيمة من المعادلة التالية: على سبيل 
المثال لو تم الحساب على مجال التقارير الإخبارية بذخيرة لوب ‘LOB‏ 


تكون المعادلة كما يلي: 
n=—x10°‏ 
M‏ 


وبما أن نطاق ذخيرة التصنيف 38 - 886٠٠١‏ كلمة» فإن الرقم النسبي 
DEAL XI‏ هو: 


14 
88000 





x100000 = 15.9 


n= 


ومن هذه الأرقام الإحصائية يمكننا أن نلاحظ أن عدد مرات ظهور كلمة 
41 في التصنيفات الثمانية لذخيرة لوب بها ما هو أكبر وما هو أقل من © 
في حدود أربعة تصنيفات؛ حيث كان عدد مرات تكرار كلمة .2841 في 
تصنيف المراسلات هو الأعلى حيث وصل إلى 75 مرة. وهذا يدل على أن 
عدد مرات تكرار كلمة 25:43 باعتبارها Vad‏ في ذخيرة لوب التي يصل 
حجمها إلى مليون كلمة ما زال صغيرً! إلى حد كبير. وعلى الرغم من ذلك 
فإن الأرقام النسبية لعدد مرات تكرار هذا الاسم في التصنيفات المختلفة يُظهر 
أن هناك اختلافا في نسب التوزيع» على سبيل المثال نجد أن الرقم النسبي لعدد 
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مرات تكرار هذه الكلمة داخل التخصصات الثلاثة (المراسلات» والتقارير 
الإخبازية» والديانات تقش يضعف Leal)‏ في مجال الموضوعات الاجشماعية. 


والجدول 4-" يُبَيّن النتيجة الإحصائية لعدد مرات تكرار كلمة ب2143. 
في ذخيرة أكبر في مجالي الروايات والنصوص العلمية كل على حدةء وهذه 
الدخيرة عبارة عن عينات تم اختيارها من ذخيرة لونجمان- لانكاستر 
«st Longman Lancaster‏ حدود أر بعة ملايين كلمة» وقد تم عمل الإحصاء 
على كل من حالتي الاسم والفعل لكلمة ب[214. 

جدول (4-"): يبين الجدول التوزيعي لعدد مرات تكرار كلمة .171741 
في مجالين مختلفين وفقا لنصوص ذخيرة لونجمان- لانكاستر Longman‏ 
Lancaster‏ 





l | jaaa 
-| DAAK ~ 






















وهذا الجدول الإحصائي يوضح حقيقة في غاية الأهمية؛ وهي أنه على 
الرغم من أن إجمالي الأرقام النسبية تشير إلى أن صيغة الفعل من كلمة 
41 أكثر شيوعًا من صيغة الاسم ١١5(‏ في مقابل ,.)1١‏ نجد أن معدل 
استخدام الاسم أكثر شيوعًا من الفعل في تصنيف الرويات ٠١7(‏ في مقابل 
1( أما في مجال النصوص العلمية فنجد أن الوضع عكس ذلك؛ حيث كان 
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استخدام صيغة الفعل من كلمة ,2543 أكثر من ضبعف صيغة الاسم ١75(‏ 
في مقايل (Y£‏ 

تشير نتيجة الاستقراء السابقة إلى أن الرقم الإحصائي الإجمالي 
للمشاهدات داخل الذخيرة بأكملها لا يمكن أن ينطبق دائمًا على المشاهدات 
المُسْتَخْرَجَة من التصنيفات الفرعية للذخيرة. وعلى العكس من ذلك فإن 
النتيجة التي يتم الحصول عليها من تصنيف فرعي لا تعبر عن باقي 
النجالاك: بل لآ يمكن تعميمها مير عن للقانون العام الذئ يحكم لغة مسن 
اللغات. وبعبارة أخرىء فإن معدلات تكرار كلمة من الكلمات وأنماط 
استخدامها تَعَبّر بدرجة كبيرة فقط عن المجال اللغوي الذي تمت عليه عملية 
الإحصاء. ومن هنا يرى بيبر أن النتيجة الإجمالية التي يتم عملها على لغة 
ما (اللغة الإنجليزية على سبيل المثال) لا يمكن أن تكون نتيجة استرشادية؛ 
لأن هذه النتيجة عبارة عن معالجة لمجموع المشاهدات التي تم جمعها عن 
معدلات الاستخدام في عدد من المجالات. فمن ناحية يرجع هذا إلى أن 
النتيجة الإجمالية لا تكون سليمة؛ بسبب تحول الأداء اللغوي الذي يحدث للغة 
من مجال إلى مجال. ومن ناحية أخرى يمكننا القول: إن اللغة التي 六‏ 
عنها هذا النوع من النتائج الإجمالية غير موجودة على أرض الواقع. 


ثانيًا: الا استقراء على مستوى الدلالة 


. في الغالب يتم عمل الاستقراء على مستوى الدلالة بدءًا من الجدول 
السياقي للكلمات Key Word in Context)‏ المسمی اختصارًا ب ‘(KWIC‏ 


حيث يقدم هذا الجدول السياقي جميع الحالات التي ظهرت فيها كلمة معينةء 
مع السياقات المصاحبة لها. ولكن بالنسبة إلى الكلمات متعددة الدلالة ينبغي 
الاعتماد على المجهود البشري في للتعرف على معنى الكلمة موضع البحث 
eic i)‏ الكلمة الهدف) في كل سجل مُفَهْرَس أو كل مثال من ABM‏ 
وهذه من أصعب المهام التي يمكن أن يقوم بها العنصر البشري. على سبيل. 
المثال نجد أن كلمة DEAL‏ ظهرت ٠٠٠١‏ مرة داخل الذخيرة المكونة من 
مليون كلمة. أما بالنسبة إلى كلمة من الكلمات شائعة الاستخدام فقد تصل 
النتائج إلى ما يزيد عن عشرة آلاف سجل. وإذا أردنا أن نستخرج الأنماط 
الدلالية لتلك الكلمة من بين هذا الكم من النتائج؛ نحسب أن ذلك من الأعمال 
المستحيلة التي لا يستطيع أن يقوم بها عنصر بشري. لذلك فقد اختار العالم . 
بيبر طريقًا مختلفا للاستقراء الدلالي عن طريق التصاحب. إن ما يُطلّق عليه 
الكلمات المتصاحبة يُقصتد به تلك الكلمات التي ترذ دائمًا بمسصاحبة الكلمة 
الهدف داخل النصوص اللغوية. إن هذه الطريقة التي تعتمد على استقراء 
التوزيع الدلالي للكلمة تقوم على أساس الفرض التالي: كل مجموعة من 
الكلمات المتصاحبة يقتصر تصاحبها مع الكلمة الهدف في إطار معنى واحد 
لها فقط. ولذلك فمن خلال تحليل مجموعة الكلمات المتصاحبة التي يكثشر 
ظهورها مع الكلمة» يمكننا أن نُمَيّز بشكل فعال معنى أو معاني تلك الكلمة. 
والجدول 5-4 يظهر لنا التصاحبات الأكثر ظهورًا DEAL 4S ao‏ 
والذخيرة التي تم الاعتماد عليها مُستخرّجة من تصنيفين داخل ذخيرة 
لونجمان لانكاستر pagai Longman Lancaster‏ علمية في حدود 
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مليونين وسبعمائة ألف كلمةء وروايات في حدود ثلاثة ملايين كلمة. Lay‏ 
بالتصاحب الأيسر تلك الكلمات التي ترد قبل الكلمة الهدف مباشرة؛ She‏ كلمة 
"6000" في التصاحب "4681 000ع'؛ أما التصاحب الأيمن فيُقصد بهتلك 
الكلمات التي ترد بعد الكلمة الهدف مباشرة» مثل كلمة " 05" في التصاحب 
."deal of‏ 

وقد أظهر الجدول ٠-٤‏ أن أكثر الكلمات التي تتصاحب مع الاسم 
Ge DEAL‏ جهة اليسار هي كلمة great’‏ (ظهرت بمعدل ٠٥‏ مرة في كل 
مليون كلمة)ء يلي ذلك كلمة "6000" (ظهرت بمعدل 7١‏ مرة). وفي الحقيقة 
أن هذا يمثل مجموع أمثلة يصل إلى ٥‏ تصاحيًا من بين ١97‏ حالة ظهور 
. لهذه الكلمة في هذا التصنيف. وتلى ذلك من حالات التصاحب الأيسر كلمة 
"package"‏ وكلمة 824"؛ حيث وردت كل منهما مرتين فقط أي بمعدل 
٠,‏ كل مليون كلمة. 
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جدول ؛-؛ الكلمات دائمة التصاحب مع كلمة .721541 
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وتشير تلك النتيجة الاستقرائية إلى أن كلمة à DEAL‏ حالتها الاسمية 
يكثر ورودها مع التصاحبات "good/great deal!‏ 4._ النصوص العلمية؛» وفي 
تلك الحالة يكون معنى "1463" هو 'كمية,. أو 'صفقة". وإذا نظرنا إلى 
التصاحبات اليمنى سنجد أن كلمة 0" هي أكثر الكلمات المتصاحبة مع 
الكلمة الهدف من جهة اليمين؛ حيث وردت بمعدل ۳۹ مرة في كل مليون 
كلمة» وهي نسبة تفوق كثيرًا نسبة الكلمة التي وردت في الترتيب التالي لها 
(وردت كلمة ١م‏ مع الكلمة الهدف بمعدل سبع مرات). ومن هنا يمكننا أن 


325 


نستخلص أن كلمة ,21143 عندما تستخدم اسمًا فإن نمط التصاحبات المقترن 
معها يكون على الصيغة 04 0681 غدعمج/000ع ه"» ويتضح من ذلك أيضًا أن 
المعنى الأكثر تداولاً لكلمة .25:41 هو "كمية", أو 'تبادل تجاري". وبالإضافة 
إلى ذلك فإن الجمع بين نتيجة الاستقراء السابقة وجدول الفهرسة من شأنه أن 
Gi}‏ لنا مستوى أكثر واقعية للحكم على المعاني الأكثر شيوعا لكلمة 
2541 في حالتها الاسمية. على سبيل المثال» يعبر جدول الفهرسة عن أن 
أكثر الاستخدامات a good great deal" à "good/great deal" hail É gà‏ 
."a good/great deal attention" «of work‏ لیس هذا فقطهء بل إن 
مجموعة الكلمات المتصاحبة مع كلمة 2143 من جهة اليمين تعبّر عن أن 
معناها في تلك الحالة يكون 'كمية". على سبيل المثال» الأمثلة التي وردت 
فيها كلمة التصاحب “more”‏ من جهة اليمين هي " a great deal more‏ 
"to"y c'in" GaS Ld .oa great deal more inhibited" ; "tolerance‏ عندما 
تتصاحبان مع كلمة ا06۸ من جهة اليمين فيعني ذلك أنها ما زالت تعني " 
كمية" مثل: differ agreat deal in their ` ‘a great deal in common’‏ 
a great deal to "y'a great deal to be desired’ ; “understanding‏ 
offer‏ وما إلى ذلك. والخلاصة أن غالبية معاني كلمة 9541 في حالتها 
الاسمية في النصوص العلمية تأتي بمعنى 'كمية". 

أما إذا قارنا بين النصوص العلمية ونصوص الروايات فسوف نجد أن 
هناك تشابهًا في حالات التصاحب å DEAL LKI‏ صيغتها الاسمية» مع 
وجود بعض الاختلافات الواضحة. فمن ناحية نجد أن الكلمتين الأكثر 
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تصاحبًا معها من جهة اليمين ما زالت هي "good" y “great”‏ ففي الحقيقة 
أن معدل تكرار نمط التصاحب "good /great+deal”‏ في التصنيفين مثماثلا 
تمامًا؛ حيث سَجّل 58 مرة لكل مليون كلمة. ومن ناحية أخرى علينا أن ننتبه 
إلى أن هناك 15 حالة من حالات التصاحب داخل تصنيف الروايات لم 
تستخدم النمط "ا9000/8568+0681 بل ظهرت تصاحبات أخرى جهة 
اليسار مثل "56" التي ظهرت ثماني مرات كل مليون كلمة» وكلمة "big"‏ 
التي ظهرت ثلاث مرات كل مليون كلمةء هذا بالإضافة إلى وجود سبع 
كلمات أخرى ظهرت مرة أو مرتين مع كلمة 2141 من اليسار. 

وهذا يشير إلى أن معنى كمية" لكلمة ل0۴4 في حالتها الاسمية هو 
المعنى الأكثر شيوعًا في التصنيفين» على الرغم من ظهور العديد من 
التصاحبات الجديدة الأكثر شيوعًا؛ التي تَعبّر عن معاني (أو استخدامات) 
الكلمة لم تظهر أمثلة لها في النصوص العلمية. على سبيل المثال كلمة "66" 
عندما تتصاحب مع كلمة :2543 يكون معناها "اتفاقية”» مثل: " عط؛ part of‏ 
"big’ 4S Li «'Isn’t that the deal?” s deal is ...‏ فعندما تتصاحب مع 
DEAL‏ 8 معناها "غير مهم" what’s the big "y <"no big deal” :J—is‏ 
."deal?‏ ۰ 

هذا بالإضافة إلى أن هناك العديد من التصاحبات التي لم يمكن 
حصرها في الجدول السابق؛ بسبب انخفاض معدل تكرارها تعرضت لمعنى 
مهم من معاني كلمة ,21241 وهو معنى 'صفقة"« مٹJ: «property deal".‏ 
"Land deal” s cash deal" y "deal record’ s‏ وما إلى ذلك. 
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وتتشابه المشاهدات التي تم الحصول عليها لمصاحبات كلمة .2141 
من جهة اليمين بين النصوص العلمية ونصوص الروايات. إلا أن كلمات مثل 
al with’ s about‏ ترد في النصوص العلمية. 
وعندما تقترن كلمة "أناه8": و0" مع كلمة DE۸1‏ نجد أنها ما 
زالت تحمل معنى 'كمية"؛ مثل: 
"I also knew a great deal about love". ۰‏ 
"We both laughed a great deal about this".‏ 
وبالإضافة إلى ذلك: نجد أن كلمة "4110" عندما تقترن من جهة اليمين 
مع 2541 يكون معناها "صفقة"؛ مثل: 
"I made a deal with the doctors"‏ 
"I'll cut a deal with you"‏ 


وفي نصوص الروايات؛ لوحظ أن هناك حالات من المعنى لم تظهر 
ولو مرة واحدة في النصوص العلمية؛ بمعنى أن هناك بعض التصاحبات 
اليمنى مثل كلمة coll "table‏ ظهرت أربع مرات» وكلمة ”602 التي ظهرت 
مرة واحدة؛ حيث كان معناها 'مادة خشبية”, وعلى الرغم من أن هاتين 
الكلمتين لم تظهرا بعدد مرات كبيرء فإنهما تعبران عن استخدام آخر لكلمة 
41 في النصوص الروائية. 

وقد أجرى العالم بيبر مقارنة على النتائج الاستقرائية التي توصل إليها 
مع عدد من المعاجم الشائعة فوجد أن بعض هذه المعاجم قد أفردت مدخلا 
واحذا DEAL 45 (entry)‏ والبعض الآخر قد Sif‏ لها أربعة مداخل على 
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أكثر تقدير. إن أكثر المعاجم أفردت ؛ مداخل لتلك الكلمة. وقد اختلفت 
المعاجم فيما بينها في عرض المعاني الشارحة لكلمة .51541؛ حيث تراوحت 
تلك المعاني ما بين معنيين أو ثلاثة» وبعضها وصل إلى ثلاثين معنى» وقد 
ترتب على ذلك صعوبة تمييز القارئ للمعاني المختلفة لكلمة ب91543. وفيما 
يلي نعرض تجميعًا لعدد سبعة معاني تكررت داخل خمسة معاجم إنجليزية 
عن كلمة ,2543 عندما تأتي على الحالة الاسمية: 

)١(‏ كمية كبيرة» قذر كبيرء كثير. 

(۲) اتفاقية. 

(۴) (في أوراق DoS eS. (all‏ اللعب على اللاعبين. 

)٤(‏ (يتلقى) معاملة. 

(5) توزيع. 

(Y)‏ تجارة» معاملة. 

وقد أوردت أغلب المعاجم شرحًا لتلك المعاني السبعة: إلا أن هناك 
يرد به معنى "اتفاقية". هذا بالإضافة إلى وجود فرق كبير بين تلك المعاجم فسي . 
ترتيب شرح المعنى. على سبيل المثال ظهر معنى 'كمية كبيرة» وقدر كبيرء 
وكثير" في المادة الفرعية الثانية في معجم وبستر (Webster)‏ أما في معجم 
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balal å cas (Random House) usla asi‏ الفرعية الحادية والعشرين. 
وقد كانت الملاحظات التي توصل إليها بيبر من خلال المقارنة ما يلي: 

)١(‏ على الرغم من أن معنى 'كثير" هو المعنى الأكثر شيوعا داخل 
التصنيفين الذين تكونت منهما الذخيرة موضع البحث»ء فإن هذا 
المعنى لم يتصدر قائمة المعاني في بعض المعاجم المنشورة» بل 
أتى في آخر الشرح؛ حيث احتل الموضع السادس عشر أو الحادي 
والعشرين. 

)١(‏ تم التوصل إلى المعنى الأكثر شيوعا لكلمة ۴41( من خلال 
تحليل التصاحبات اللغوية لهذه الكلمة؛ وذلك عندما نستخدم 
التصاحب "دمل عاط" بمعنى "غير cage‏ وهذا المعنى لا يوجد 
معجم حتى الآن تمكن من رصده والتعرض له في الشرح. 

(۳) جميع المعاجم الخمسة التي تم استطلاعها أوردت معنى 'توزيع 
أوراق اللعب" باعتباره أحد معاني DEAL lS‏ إلا أن هذا المعنى 
لم يظهر في الذخيرة التي أجرى العلم بيبر بحثه عليها. فمن ناحية 
تشير نتيجة استقراء الذخيرة إلى أن هذا المعنى من المعاني النادرة 
لكلمة ب2141. ومن ناحية أخرى فإن المتحدثين الأصليين باللغة 
(native speakers) 4. 5.l.:)!‏ يعتبرون أن هذا المعنى من المعاني 
الخاصة لكلمة .25:43 ولذلك فإن تدوينهم لهذا المعنى في معاجمهم 
يعتبر عملا صحيحا. ومن هذا المنطلق يمكننا القول: إن ذلك هو 


330 


أحد أوجه القصور في منهجية العمل من خلال الذخائر اللغوية. 
ويرجع ذلك إلى أن أسلوب العينات الذي يتبعه علم الذخائر اللغوية 
في جمع النصوص يتعرض لقدر من التحيز وتحجيم نطاق المادة 
اللغوية» وهذا الوجه من أوجه القصور من الصعب تجنبه. لذلك لا 
$i‏ من تدخل علماء اللغة في أثناء عمليات استقراء المفردات؛ حيث 
تسد معلوماتهم وحسهم اللغوي أوجه القصور في منهجية العمل من 
خلال ذخائر لغوية. 
ثالنًا: منهجية الذخائر اللغوية في دراسة التصاحب اللغوي 
يظهر التصاحب اللغوي باعتباره أهم 'الظواهر الواجب دراستها لخدمة 
مجالات تعليم اللغات للناطقين بغيرهاء والترجمة الآليةء والتوليد الآلي للغات 
الطبيعية وغير ذلك من المجالات. فلماذا نقول: 'يرتدي ملابس“ و'يضع 
Aad‏ في حين أنه لا يمكننا أن نقول: 'يضع ملابس"؛ و"يرتدي قبعة" ولماذا 
في اللغة الصينية يمكننا استخدام الفعل “8" بمعنى يرى أو يشاهد في الأمثلة 
التالية "826 76" بمعنى يشاهد فيلماء و"85 83#" بمعنى يشاهد مباراة كرة 
القدم» و"5/0#" بمعنى يقرأ رواية» و7112" بمعنى يزور صديقاء في 
حين أن هذا الفعل عندما ينقل إلى اللغة الإنجليزية سيترجم إلى '©0/5©6ع 
0 على التوالي» وكل هذه من المعلومات الواجب 
استيعابها جيدًا حتى يتمكن الدارس من استخدام لغة من اللغات. 
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2 المُعْجِمي مورتون بنسون ly (Benson .M)‏ معجم بي بي آي 
للتصاحب اللغوي في اللغة الإنجليزي )) BBI Cominatory Dictionary of‏ 
[81].(Johne Ben jamins Publishing Co,1986) ((English‏ تعريف1 
للتصاحب اللغوي كما يلي[82]: 

التضاحب. اللغوي. :هو نوع امن تكزار الظهور الإلزامي لمجموغة من 
الكلممات معا( A collocation in an arbitrary and recurrent word‏ 
(combination‏ ". 

وقد حدد بنسون من خلال تعريفه خاصيتين من خواص التصاحب 
a jb‏ إلى تكرار 
الظهور. 

والمقصود بلزوم التصاحب هو التفريق بين التصاحب اللصقي 
combination) jal aLa J (bound ċombination)‏ ee٣إf).‏ يعبر 
التصاحب اللصقي عن لزوم عملية التصاحب بين الكلمات المتصاحبة. 
وبعبارة أخرىء» يتمتع هذا التصاحب بصفات خاصة ومحددة» وهي أن كل 
تصاحب يضم على أقل تقدير كلمة واحدة تخضع لقدر كبير من الإلزام في 
أثناء التصاحب مع الكلمات الأخرىء وعلى هذا الأساس لا تكون حرة في 
عملية التصاحب؛ مثل التصاحب murder commit‏ بمعنى (ارتكب days‏ 
قتل)؛ حيث إن فعل oS Y “commit” J "cbs‏ أن يقترن إلامع عدد محدود 
من الأسماء مكونا تعبيرة فعل ومفعول» مشل "ies “crime” GLAS‏ 
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inns “suicide’ 9 oA pa"‏ "انتحار"» 9 ines "doing-wrong’‏ 'فعل مشین“ 
وما إلى ذلك. ولذلك يتم commit murder 323 jlicl‏ تعبيرة لصقية. 
والتعبيرات اللصقية (التصاحبات) تفرضها العادة اللغوية في لا ولا 
تكفي المعلومات النحوية والدلالية لإماطة اللثام عن السبب في حتمية الحديث 
بمثل هذه الطريقة؛ ولذلك تكون هذه التصاحبات إلزاميةء ae a:‏ 
أن يتوقع حدوثّها. وعلى العكس من ذلك» فإن كل كلمة من الكلمات المكوانة 
للتعبيرات الحرة يمكنها أن ترتبط بحرية مع كلمات أخرى خارج نطاق تلك 
التعبيرة» مكونة بذلك تراكيبًا أخرى على نمط التركيب النحوي الحالي نفسه. 
على سبيل المثال تعبيرة فعل ومفعول على النمط condemn "Js dui‏ 
٣ا"‏ بمعنى "يدين جريمة قتل" تنتمي إلى التعبيرات الحرة وذلك لأن 
فعل «ص٠ل«هء‏ يمكن أن يقترن مع العديد من الأسماء مثشل 
altel cb (J ss “abduction,abortion,abuse of power, acquittal’‏ 
مفعولاء أما الاسم 2006م فمن الممكن أن يقترن مع أكثر من مائة فعل 
مختلف باعتباره مفعو coll ey «‘abhor,accept,acclaim, advocate" :Sis y‏ 
ذلك. لذلك فإن هذه التعبيرات لا تتمتع بخصوصية لغوية» وما على دارسي 
اللغة الإنجليزية باعتبارها لغة أجنبية ثانية إلا أن يتعرفوا على معنى تلك 
GLANS‏ وتخصائضها النحوية وها Bi‏ على دل من فراع تحوية: حي 
يمكنهم أن يكونوا تلك التعبيرات اللغوية بحرية تمكنهم من التواصل اللفوي 
السليم. وانطلاقًا من هذا المعنىء فإن التعبيرات الحرة ليست إلزامية ويمكن 

توقع حدوثها. 
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وفي مجال دراسات التصاحب في اللغة الصينية فقد نشر في السصين 
عدد من معاجم التصاحب اللغوي. إن دراسة التصاحب اللغوي في اللغة 
الصينية لا يمكنه أن يتجنب أيضنًا قضية التمييز بين حدود التصاحب وغير 
التصاحب اللغوي. يرى قوه تشيان أن معجم (التصاحبات اللغوية بين الكلمات 
الحقيقية في اللغة الصينية الحديثة)!1*3 هو أفضل المعاجم التي تناولت قضية 
التصاحب اللغوي في اللغة الصينية الحديثة. وذلك على الرغم من أن هذا 
المعجم قد سجّل عدذا كبيرًا من التعبيرات اللغوية الحرة على اعتبار أنها 
تصاحبات لغوية. وقد عرض رئيس تحرير المعجم في مقدمته فكره في أثناء 
عملية التأليف والمتمثل في أن يقدم لكل كلمة حقيقية يرغب أي شخص في 
التعرف عليها ما يلي: 

)١(‏ هل يمكن أن تشغل محل المسند إليه في الجملة؟ وإذا كان مسن 
الممكن ذلكء فما الكلمات التي يمكن أن تشغل محل المسند معها؟ 

(1) هل يمكن أن تشغل محل المسند في الجمل؟ إذا كان من الممكن 
ذلك» فما الكلمات التي يمكن أن تشغل محل المسند إليهء أو المفعولء أو 
٠‏ المكمل معها؟ وما إلى ذلك. وقد شبّه فريق تأليف المعجم الكلمة أنهامثل 
المغناطيس» وأن الكلمات التي تنجذب لتأثير المجال المغناطيسي لتلك الكلمة 
يمكنها أن ee oS‏ تصاحبًا لغويًا. وعلى هذا يمكننا أن نتصور كيف أن 
هذا المعجم سوف يجمع بالتأكيد عدذا لا بأس به من التعبييرات الحرة Y)‏ 
تمثل تصاحبات لغوية) مثل تصاحبات المسند إليه + المسند مثل "2128:8875" 
بمعنى"المدير الكفؤ"» و"1-88-77” بمعنى "العامل الكفؤ"» وتصاحبات المسند . 
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+ المفعول به مثل: "74282104" بمعنى 'يمدح الشاب“ و "تلاغة 75988" بمعنى 
'يمدح الطالب" وما إلى ذلك. 

ومن هذا المنطلقء» فإن التوصل إلى طريقة إحصائية مناسبة للحكم 
على ما إذا كان التركيب يمثل تصاحبًا لغويًا أم غير HS‏ القضايا 
المهمة التي تشغل العاملين في حقل الذخائر اللغوية. كان العالم ياكوف شويكا 
(Y .Choueka)‏ أول من استخدم الأدوات الحاسوبية في عمل تحليل كمي 
للتصاحبات es 同和‏ التصاحب 
اللغوي على أنه سلسلة من الكلمات المتجاورة التي تتكرر معاء وقد نجح في 
استخراج عدة آلاف من التصاحبات اللغوية الشائعة في اللغة الإنجليزية آلا 
من ذخيرة تصل إلى إحدى عشر مليونا من الكلمات من جريدة نيويورك 
تايمز باستخدام الحاسب الآلي؛ مثل: رصنت fried chicken Johnson, home‏ 
Magic‏ وغيرها. وقد كان من عيوب تلك الدراسة عدم التفكير في إمكانية 
أن تقوم إحدى الكلمات بالفصل بين الكلمتين المتصاحبتين؛ مثل: (هفواعءل... 
(make‏ بالإضافة إلى الخاصية الإلزامية للتصاحب اللغوي. أما العالم كينيت 
ye oy 9 (Church .K) G2 cll,‏ العلماء فقد عَرفوا التصاحب اللغوي 
على أنه عبارة عن كلمتين بينهما علاقة متبادلة»؛ واستخدموا مفهوم 'كمية 
yola (mutual information) "ALa Sla pleal‏ بنظرية المعلومات في 
الحكم على القوة الاقترانية بين أي كلمتين في اللغةاة*!؛ حيث أجروا اختبارًا 
على ذخيرة من النصوص الإخبارية مكونة من أربعة وأربعين مليون كلمة 
أطلق (Usap Corp) 3:53 tele‏ إن القيمة الإحصائية التي تقدمها معادلة 
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المعلومة المتبادلة يمكنها أن تقدم إلى حد بعيد تفسيرًا للخاصيتين اللتين قم 
طرحهما آنفا؛ وهما خاصية الإلزام وخاصية التكرارء هذا بالإضافة إلى أنها 
لا تتقيد بضرورة أن تكون الكلمتان متجاورتين. ومن عيوب تلك الطريقة 
عدم الاهتمام بأن يتضمن التصاحب دائمًا خصائص تركيبية نحوية؛ الأمر 
الذي تسبب في أن يستخرجوا العديد من أزواج الكلمات من الذخيرة؛ مثل: 
le doctor-nurse, doctor-bill, doctor-hospital‏ الرغم من وجود علاقة 
دلالية بين تلك الكلمات؛ ولكن نظرًا إلى عدم وجود علاقة نحوية تحكم تلك 
الكلمات» فلا يمكن النظر إليها باعتبارها تصاحبات لغوية إذا نظرنا إليها 
بقدر أكبر من الدقة في الحكم. أما برمجية إكستراكت 80266 التي صممها 
العالم فرانك سمادجا (5. 58089[8) فَتَعْتيّر من أحدث البرمجيات التي تقوم 
بعمل تحليل كمي للتصاحبات اللغوية بالإضافة إلى أنها-الأكثر تكاملا"*!. ولم 
يكتف سمادجا بتقديم معادلة تفسر قوة الاقتران بين أزواج الكلمات فحسبء 
بل استعان بمعادلة لحساب موقع الكلمة ودرجة التشتت في توزيعها. وقد 
نجحت برمجية إكستراكت 260804 في استخراج أمثلة عن التصاحب اللغوي 
من ذخيرة تصل إلى عشرة ملايين كلمة عن أخبار بورصة الأوراق AML‏ 
وقد وصلت نسبة الدقة في النتائج إلى ما يقرب من .%۸٠‏ 

استخدم العالم سوين ماو سونغ وغيره من جامعة شين خوا الصينية 
ذخيرة الأخبار التي أنشأتها وكالة أنباء الصين الجديدة شين خوا في الفترة ما 
بين عامي ۰٩۱۹۹۱-۱۹؛‏ التي أطلق عليها اسم è XH-CORPUS‏ عمل 
تجربة عن التحليل الكمي للتصاحبات اللغوية في اللغة الصينية» وكان الهدف 
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ذلك تقديم مرجعية كمّيّة عن التصاحبات اللغوية لعلماء اللغة حتى يمكن 
تقديم كشاف نصف آلي عن التصاحب اللغوي يصلح لأنماط التواصل اللغوي 
بين الإنسان والآلةا”*!» وفي الصفحات التالية سوف نقدم نتيجة الاستقراء 


قوة التصاحب 
قام كينيت والت تشرتش وغيره من العلماء باستخدام معادلة كمية 
المعلومات المتبادلة 7# لقياس درجة العلاقة بين أي كلمتين اء و" . 
(w, w;)‏ : 
لص mi(w, w,) = lo‏ 
B20w) plw)‏ 
المعادلة )١-54(‏ 


了‏ احتمال ورود الكلمتين ١‏ و " في نطاق 
aii PO) POLE «staal‏ كل منهما إلى احتمال ورود POY‏ 
و(" بمفردهما على التوالي داخل الذخيرة. 
على فرض أن 6777, و 7017 زوج من الكلمات المتصاحبة المَنتّخْبّة: 
تعكس القاعدة )١-٤(‏ السابقة مدى إلزامية التصاحب» وخاصية تكرار 
.i‏ 
ا aah POM) , PW) as‏ يه Za pcs, «yen‏ 
تقيّد الكلمتين Togo‏ " ببعضهما كبيرة» وكانت فرصة ظهور 
هاتين الكلمتين مع كلمات أخرى قليلة» بالإضافة إلى أن قيمة 
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POM) J, POW)‏ قليلةء فمن ثم تكون كمية المعلومات المتبادلة 
بينهما (0077” كبيرة. وهذا يعبّر عن أن كلا من W g WM‏ 
بينهما علاقة اقتران إلزامية قوية. والعكس من ذلك صحيح. 

(۲) عندما تزید عدد مشاهدات ۰۳۷ مع ویکون احتمال ورود ۷ 
مع " والذي يُرْمّز له بالرمز (70107 كبيراء تزداد تبعا ل ذلك 
كمية المعلومات المتبادلة بين ٠١‏ و:"؛ التي يُرمز لهاب 
1000 . وهذا يُعَبّر Ge‏ زيادة قوة التصاحب بين كل من ١ء٠‏ 
و ". والعكس من ذلك صحيح. 

ويراعى في أثناء اكتشاف أمثلة التصاحب ضرورة أن يأتي التصاحب 


بين الكلمتين 17» و " في إطار جملة واحدة. ففي إطار الجملة الواحدة يمكن 
السماح بأن تنفصل الكلمتان 1» و" عن طريق مجموعة من الكلمات. على 
سبيل المثال» تعبيرات مثل ۴#" بمعنى '"يرتدي ملابس“ و "18 5۴51" 
بمعنى 'يرتدي ملابس جديدة"» و'7-14:416 9" بمعنى 'يرتدي ملابسس 
حمراء اللون”؛ وما إلى ذلك من تعبيرات لغوية أو جمل» نجد أن كلمة "85" 
بمعنى "يرتدي" تتصاحب مع كلمة "KAR"‏ بمعنى "ملابس" وهما كلمتان ينبغي 
ظهورهما معًا. وبالطبع فإنه كلما بعدت المسافة بين الكلمتين أمكننا القول 
بانحسار قوة العلاقة التصاحبية فيما بينهما. وقد حددت برمجية إكستراكت 
ا السياق المحيط بالكلمة الإنجليزية عند حدود خمس كلمات قبل تلك 
الكلمة وبعدها. وبعبارة أخرى» يمكن القول: إن نافذة الرؤية للكلمة تم 
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تحديدها بقيمة +ه كلمات. وقد اتبع سوين ماو سونغ طول النافذة نفسه في 
استقراء التصاحب اللغوي في اللغة الصينية؛ حيث جعل الصيغة pj(w,w,)‏ 
jad‏ عن احتمال ظهور الكلمتين Bo Wy ow‏ عندما يفصلهما عدد من 
الكلمات يقدر بالمسافة . على أن تكون 1,1,2,3,45-,2-,3-,4-,5- = ل , 
فعندما تظهر الكلمة Wi‏ على يسار الكلمة ٠١‏ فإن ‏ تأخذ قيمة سالبةء Lid‏ 
عندما تظهر الكلمة “على يمين الكلمة”" فإن 7 او 

فإذا عبرنا عن قوة التصاحب بالصيغة(" ”)3 فيُمكننا حساب ذلك من 
خلال المعادلة التالية التي تقوم على أساس من القاعدة )١-4(‏ كما يلي: 


+5 
2 Pi(w,w) 


Ww.) = log J Fs, 
s(w, w,) = log, HOP 





المعادلة (4-؟) 
فلو فرضنا أن مجموع الكلمات المُكوّتة للذخيرة هو NM‏ وكانت 
الصيغة 720 تَعَبّر عن ظهور الكلمتين "i y ١‏ وتفصلهما المسافة 4» 
وكانت كل من me TW) TOW)‏ ران عن عدد مشاهدات »و ” 
بمفردهما داخل الذخيرة واستخدمنا التقديرات الأعلى فيمكننا الحساب 
بصورة منفردة كما يلي: 


339 





pj(ww;)= r;(w,w;)/N 
p(w) = r(w)/N 
p(w) =r(w)/N 


ويمكننا إدراج ماسيق مع القاعدة )۲-١(‏ فنحصل على الصيغة التالية: 






+5 
NÈ r,(w, w; ) 


f=-5 


s(w, w,) = log, 
rw) r(w,) 





المعادلة (4-”) 

يصل حجم ذخيرة 711-00182105 إلى عشرة ملايين رمز» وبعد أن 
تمت عليها عملية تقسيم للكلمات وصل عدد كلماتها إلى *7.1×10= ۸ وقد 
أجرى سوين ماو سونغ دراسة استقرائية على التصاحبين اللغويين 
BH"‏ ,8827" بمعنى 'قدرةء ضعيفة و2 ,[882" بمعنى "قدرةء كبيرة.. 
وفيما يلي بيانات تلك الدراسة الإحصائية: 

المجموعة الأولى: "39 ,882" 

3 = en, 3) =1,." (88, 39) =3 


n (ft, ¥) =5, 7 (能 力 ， 弱 ) =0 (j=-5,-4,-2,- 
1,3,4,5) 
r=( 能 力 )=2441,7 =( 弱 )=177 


ووفقًا للمعادلة رقم (4-”) يتم التعويض في المعادلة كما يلي: 
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7.1x10°(1+3+5+7x0) 


ne 2241x177 oe Gey, B= 
"8227, المجموعة الثانية:"22‎ 
Ms 《能 力 ， 大 ) =6, rs (能 力 ， 大 ) =4, 


hs (gb, K) =8, 和 (ABA, K) =4, " (HBA, K) =2, 
"CH, K) =9, 2 CHR, K) =6, P (CREW, K) =4, 
(能 力 ， 大) =6， 3 (REA, XK) =5, r (REJJ) =2241, 
r CK) =19913 


(能 力 ， 大 ) =5 
8 2 
log, 7.1x10°(6+44+84+4+24+9+6+4+6+5) =3.10 


3 :2 
قبل E‏ ف EA ah eae‏ 
(能 力 ， 大 ) wx X25 i 5 (能 力 ， HD A‏ “م ون هذا يتح لنا 
أن المجموعة (89 Sa‏ تصاحب لغوي بصورة أكبر من 
ye at ll (ley (REH. K)‏ أ ن الكلمتين 852" و"88” وردتا معافي 
الذخيرة عدد ٩‏ مراتء وأن الكلمتين "8520" و" وردتا معًا عدد 4ه مرت 
فإنه نظرًا! إلى أن كلمة "8827" وردت بمفردها داخل الذخيرة عدد ١١۷‏ أما 
كلمة "2" فقد وردت بمفردها في الذخيرة عدد ١١۹۹ء‏ ووفقا للمعادلة رقم 
)۳-١(‏ فإن قيمة درجة التصاحب بين كل من "39 ， "能 力‏ قد تجاوزت على 
العكس من ذلك نظيرتها بين كل من × "HEAT,‏ وهذه النتيجة نقطة تُحْنَب 
لصالح مبدأ إلزامية التصاحب بين الكلمات. 
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وبالطريقة نفسها يمكن التوصل إلى النتائج التالية: 
能 力 ， 强 ) =7. 45‏ 〈 3 
S (HEA, 2) =6. 63‏ 
S (HEA, 7) =0.74 .‏ 
وحسب درجة قوة التصاحب يمكن ترتيب التصاحبات تنازليًا كما يلي: 
CRED, 强 ) > S (能 力 ， 5) > S (能 力 ， 大 ) >‏ ل 
s (EJH, A)‏ 
وهذا يوضح أن إمكانية وجود تصاحب فيما بين هذه المجموعات 
تتناقص تدريجيًا. ونظرا إلى تقارب درجة قوة التصاحب وارتفاعها فيما بين 
المجموعات CHRD, Bo c REH, I‏ و" ,8827" يمكن اعتبارها 
تصاحبات لغوية. وعلى الرغم من أن نتيجة التصاحب ل 《能 力 ， 大)‏ 5 
منخفضة:؛ ذيمكننا عمل ١‏ ستقراء إضافي لهذه المجموعة لتقرير ما إذا كانت 
(fies‏ تصاحبًا لغويًا أم لاء أما نتيجة التصاحب 7١‏ ,8827) 5 فتقترب من 
الصفر؛ ولذلك فمن الواضح أنها لا تمثل تصاحبًا لغويًا. 
درجة انتشار التصاحب 
ونظرا إلى أن الكلمتين المتصاحبتين غالبًا ما يكون بينهما علاقة 
تركيبية مُّحَتَدَةَ لذلك فإن فرصة ورود الكلمة " مع الكلمة 2 في موضع أو 
عدة مواضع بالنسبة إليها تكون كبيرة إلى حد بعيد؛ ومن ثم فإن قيمة 
الموضع ‏ في الصيغة "7 تحدث بها قفزات كبيرة إلى حد بعيد. أما 
بالنسبة إلى الصيغ غير التصاحبية فنجد أن هذه القيمة لا تحدث بها فروق 
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لافتة للنظر. ويُظهر الشكل ١-4‏ درجة توزيع التصاحب بين المجموعتين “85 
HI, HA‏ و “2718 ,8821”: فالمجموعة الأولى درجة توزيع التصاحب فيها 
شديدة التباين» أما المجموعة الثانية فدرجة توزيع التصاحب فيها متجانسة. 
والبيانات اإحصائية للمجموعتين كما يلي: 


"PER, 8527" المجموعة الأولى:‎ 
rs (能 力 ， ER) =r (能 力 ， BR) =], rs CRED, BR) 
=8, r (能 力 ， ER) =0 (j = -5,-1,1,2,3,4,5) 


Hm, 8252" المجموعة الثانية:‎ 
r (REJ. JED- neH., Am2, r GEJ. H3, vr, (HE 
A, Amer E. Amn, A, reJ. Am0 
(j =-5,3,4,5) 





مولع دتمة لمتصاعبة 


شكل :)١-4(‏ توزيع التصاحب بين كلمتي المجموعتين 
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تساوت عدد مرات مشاهدات مجموعتي التصاحب CEH, ER‏ 
و "27158 ,882" في الذخيرة اللغوية؛ حيث سجلت كل مجموعة ٠١‏ مرات 
ظهور. إلا أن الفرق بين توزيع التصاحب فيما بينهما كان كبيرا. فيالنسبة إلى 
درجة الانتشار 01:10 للتوزيع 72:17 يمكن استخدام المعادطلة التالية 
لحسايها: 


[rw, wi)—r(w, wi) 


2-5 





u(w,w) = 10 


معادلة رقم (4-؛4) : 


حيث تشير ane gin TOWN)‏ عدد مرات ظهور الكلمة '" في 
المواضع المختلفة من الكلمة ٠”‏ 





معادلة رقم )0-8( 


يُعْبّر البسط في المعادلة رقم (5-4) عن درجة التفاوت والانسجام بين 
FM JaA‏ 


وعلى هذا الأساس يتم حساب درجة انتشار توزيع التتصاحب بين 
المجموعتين كما يلي: 
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TGJ, $k) (14148) /10=1 


4 (能 力 ， PK 
(0-1)? + (1-1)? + (8-1)? + 7x (0-1 )/10 = 0 


7 (能力 ， 方面 )= (2+3+1+1+2+1+4Xx0) /10=1 


4 (能 力 ， 方 面 )= 
))2-1(2 + )3-1(2 + )8-1(2 + 3<)1-1(2 + )2-7 


+4x(0-1)?/10=1.0, 
عندما يكون مدى التغير في التوزيع كبيراء فمن الممكن أن يحدث تبعًا‎ 
١-٤ لذلك :طفرة في أحد مواضع التصاحبء على سبيل المثال في الشكل‎ 
OSEH, ER عندما يكون موضع التوزييع 17-2 للتصاحب‎ 
وهذه القيمة تمّثل تجمعًا لمشاهدات التصاحب عند‎ ٠2 )887(, TES)=A 
في تجربة- 2 بمعلومية‎ 71) Ak هذا الموضع. عندما نحصل على‎ 
يلي:‎ Ls til) 


_ ri(w,w,)—r(w,w,;) 





Z (ww) = uw, w;) 


معادلة رقم )£-1( 


يكون شرط حدوث طفرة لظهور التصاحب في الموضع 7 أن تكون 
0 کی is‏ 
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"862, 392" عندما يكون موضع التصاحب‎ d-i JSA lish 

2 ل يتم التعويض في المعادلة كما يلي: 
8-1 
56 +19 ,4820) 2 

وتظهر نتيجة المعادلة أن قيمة (39 ,208820 أعلى من القيمة 
المتوسطة (:39 ,8620)” بمقدار .١‏ 45 درجة انحراف معياري؛ a Eh‏ 
بذلك طفرة في عملية التصاحب. 

وقد قام سوين ماو سونغ بتصميم طريقة أكثر دقة في حساب طفرات 
التصاحب بالنسبة إلى اللغة الصينية كما يلي: 

is — peak(w,w;,) 

المدخلات: عدد مرات ظهور التصاحب بين أي زوج من التصاحبات 
7" في كل موضع من مواضع التصاحب كما يلي: 

r(w,w,)(j =—5,....9) 

المخرجات: هل يوجد طفرة تصاحب أم لا؟ وما موقعها؟ 

يتم حساب متوسط عدد مرات التصاحب بين الكلمتين TWW)‏ 
بالإضافة إلى نتيجة معادلة -5-٠5(‏ < ")7 بالنسبة إلى كل موقع من 
مواقع التصاحب. 


تتفيذ الخطوات التالية مع كل حالات أ : 


346 


إذا كانت 1.00< r(w,w;)‏ < 0.30 بالإضافة إلى أن: 


i ; Z (w, w;) 2 2.50 


a ,Z;(w,w;) 2 2.00 


rw, w) < 10.00‏ £ 5-00 بالإضافة إلى أن: 


il Z; (w,w,) 21.50 
Zw Ww) 21-00 بالإضافة إلى‎ Wm) 210.00, 


J yg‏ موضع طفرة في التصاحب. وإلا فإن 7 لاتمشثل طفرة 


طريقة الحساب السابقة تقسّم متوسط التصاحبات بين الكلمتين 
(” إلى عدة قطاعات» وتقوم بحساب ES els J DP) og‏ 
فرة تصاحبية. والأرقام الموضّحَة Lilla‏ قد تم تحديدها من خلال التجارب» 
وبصورة عامة فإن قيمة متوسط المشاهدات r(w,w;)‏ قليلة لأن عدد مرات 
مشاهدة التصاحب منخفضة:؛ وعلى ذلك تكون درجة مرجعية البيانات 
الإحصائية ضعيفة؛ ولذلك ينبغي تعديل رقم البداية إلى رقم أعلى من ذلك؛ 
وعلى العكس من ذلك عندما تكون البيانات الإحصائية وافية» يمكننا تعديل 
رقم البداية إلى قيمة أقل. على سبيل المثال نجد أن التصاحب "229 ,8837" 
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ظهر في ذخيرة 305-0017105 عشر مراتء وبناءً على ذلك كانت قيمة 
متوسط عدد مرات التصاحب )3496:8827(-٠٠ .١‏ ”» وبذلك تكون درجة 
ضجيج البيانات مرتفعة إلى حد كبيرء ولو أننا قمنا بتعديل قيمة الفسرض 
. المبدئي إلى رقم أكبر (أكبر من ۲. )٠١‏ فسوف تكون النتيجة أن ۲. 
)8887((-١‏ 2-2 وهذا الرقم يمكن أن يُمَنّل مرجعية لحساب درجة 
ظهور الطفرة التصاحبية عندما تكون 72 . أما التصاحب "× ,(7غۇ" 
فقد ظهر في الذخيرة عدد ٠٤‏ مرةء وعلى ذلك يكون مقدار متوسط عدد 
مرات الظهور 5.40-(882,32) 7: وهذا الرقم يمكن الاعتماد عليه» وعلى 
هذا يمكننا تقليل درجة البداية قليلً (أكبر من .١‏ 2(« وبذلك تكون ١‏ 
4-(2:8820) 7 وهذا الرقم يمكن أن يُعتَبَر مرجعية لتقدير ظهور: الطفرة 
التصاحبية عند 21 /. 

إن قيمة متغير درجة التشتت والطفرة التصاحبية من شأنهما أن Loki‏ 
بيانات مرجعية تفيد في عمل دراسات كمية عن أبنية التصاحب اللغوي. 
ويرى سون ماو سونغ أنه على الرغم من أن هذين المتغيرين لهما قيمة 
مرجعية عاليةء فهما لا يكفيان لإثبات وجود التصاحب بمفردهما. 

وهناك عدد من التصاحبات تكفى درجة قوة التصاحب بين كلماتها 
لإثبات التصاحب» ولا يستلزم ذلك وجود درجة انتشار عاليةء وأكثر من ذلك 
قد لا يحدث بينها طفرة تصاحبية (من الواضح أننا لو انطلقنا فقط من درجة 
توزيع التصاحب فإن الطفرة التضاحبية سيكون مطلبًا صعب المنال بالنسبة 
إلى الكلمات المتصاحبة). ومن هناء فإن الاحتكام إلى متغيّري درجة الانتشار 
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والطفرات التصاحبية لا يتم اللجوء إليه إلا عندما تكون المعلومات الخاصة 
بقوة التصاحب غير كافية لاتخاذ قرارات صائبة. 

وفيما يلي نعرض مجموعة المتواليات المنطقية التي صممها سوين ما 
سونغ للحكم على وجود علاقة تصاحبية بين كلمتين؛ التي اعتمد فيها على 
حساب المؤشرات الثلاثة: درجة قوة التصاحب (معادلة (Y-£‏ ودرجة 
الانتشار (معادلة ££(‘ والطفرة التصاحبية (معادلة 1-8( 

وقدأطلق سوين ماو سونغ على تلك المعادلات اسم 
is — collocation(w, w,)‏ 

المدخلات: قوة التصاحب OC)‏ ودرجة انتشار التصاحب 
(20019, والمتوسط الحسابي لعدد مرات التصاحب ()”» بالإضافة 
إلى عدد مرات التصاحب في كل موقع لله Z (Ww, wi)(j = -5,...,5) cial‏ 


W, W, 


لأي زوج من الكلمات 


المخرجات: الحكم على وجود علاقة تصاحبية بين كل من "*" من 


عدمه. 
إذا كانت 0.0 < (Ww, w,)‏ فإن :۷,۷ لا ترتبطان بعلاقة تصاحبية. 
إذا كانت 4.30 (01:1*, إذن W o‏ ترتبطان بعلاقة تصاحبية. 
وإلاء إذا كانت 0 > s(w,w;)‏ &3.50. بالإضافة إلى أن 


u(w,w,) 0 
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إذن فإن *" ترتبطان بعلاقة تصاحبية. 
وإلا إذا كان . 3.50< Yo i 2.50 < s(w, w,)‏ $ افة i‏ أن 
u(w, w,) = 20.00‏ 
يتم الحكم على of‏ ترتبطان بعلاقة تصاحب. 
وإلا إذا كانت 2.00 2(« ,)5 
يتم التعديل إلى معادلة الطفرة التصاحبية I~ PEAR)‏ 
إذا ظهرت طفرة تصاحبية 
إذن فإن We,‏ ترتبطان بعلاقة تصاحب. 
وإلا فإن w, w;‏ لا ترتبطان بعلاقة تصاحب. 
من خلال المتواليات المنطقية السابقة يمكننا أن نقرر أن هناك 4258 
شروط تتأكد عندها العلاقة التصاحبية بين كلمتين: 
)۱( عندما تكون درجة القوة التصاحبية بين الكلمتين كبيرة بدرجة 
كافيةء فلا حاجة لحساب درجة الانتشار. 
(Y)‏ كلما تناقصت درجة القوة التصاحبية زادت الحاجة إلى حساب 
درجة الانتشار. 
(۳) عندما تنخفض درجة القوة التصاحبية إلى حد معين» يتأكد حدوث 


طفرة تصاحبية. 
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وهناك ثلاثة شروط لنفي وجود التصاحب: 


)١(‏ أن يكون عدد مرات ظهور الكلمتين معًا منخفضنًا 和 ya‏ كبيرة 
والبيانات المُحصلة ليس لها مغزى إحصائي. 

)١(‏ أن تكون درجة القوة التصاحبية منخفضة؛ ولم يصاحبها طفرة 
تصاحبية. 


(؟) أن تكون درجة القوة التصاحبية منخفضة وعلى الرغم من حساب 
درجة التشتت والطفرة التصاحبية» فإن النتائج النهائية ليست ذات 
وقد قام سوين ماو سونغ بعمل تحليل تفصيلي لجميع أنواع حالات 
الظهور المشترك بين كلمة "8827” والكلمات الأخرى في محيط قدره 5+ 
كلمات وذلك على ذخيرة 5751-60127115 التي يصل حَجْمُها إلى سبعة 
ملايين ومائة ألف كلمة. وكانت نتيجة التجربة ما يلي: وصل عدد مرات 
ظهور كلمة "882" داخل الذخيرة إلى 774١‏ مرة (أي أن 
رر = ”:224 2 )) كما وصل عدد الكلمات التي اقترن ظهورها مع 
. كلمة "8520" في سياق يصل طوله إلى 5+ كلمات إلى ١177‏ كلمة» وقد تم 
التعامل مع جميع هذه الكلمات على أنها مُرشحة لأن تكون من مصاحبات 
كلمة "[852". تم استبعاد عدد ۱۳١١‏ كلمة بعد تحقيق الشروط الثلاثة لنفي 
وجود التصاحب: وكانت تفاصيل قرار الاستبعاد كما يلي: 
)١(‏ تم استبعاد عدد 157 كلمة ينطبق عليها الشرط الأول لنفي 
التصاحب. 
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)1( استبعاد عدد 7٠١١‏ كلمة ينطبق عليها الشرط الثاني لنفي 
التصاحب. ٠‏ 

(") تم استبعاد عدد ١54‏ كلمة ينطبق عليها الشرط الثاني لنفي 
التصاحب. تم الإبقاء على عدد ٠٠١‏ كلمة بعد تحقيق الشروط الثلاثة لإقرار 


التصاحب: 

أ - تم تأكيد علاقة التصاحب لعدد 4١١‏ كلمة وفقًا للشرط الأول لتأكيد 
ERR E A‏ 

ب - تم ash‏ علاقة التصاحب لعدد 77 كلمة وفقا للشرط الثاني لتأكيد 
ly‏ 


ج - تم تأكيد علاقة التصاحب لعدد 1717 كلمة وفقا للشرط الثالدث 
لتأكيد التصاحب. وقد كان من بين الكلمات التي تم تأكيد علاقة التصاحب 
معها عدد ۸۸ كلمةء ولا يمكن وجود علاقة تصاحب بينها وبين كلمة "HEAT"‏ 
(مثل كلمات الأعداد"۴ ,-" بمعنى 'واحدء ألف")» والكلمات المساعدة 
(مثل"7 ,9ء وأداوت العطف (مثل "218 "Al,‏ بمعنى 'وء سواء')؛ 
والظروف BE he)‏ ,72" بمعنى 'لا النافية» إلى حد ما")؛ وما إلى ذلك؛ 
وباستخدام برمجية بسيطة من برمجيات الترشيح يمكن استبعاد تلك الكلمات 
من النتائج النهائية. وبالإضافة إلى ذلك فقد كان هناك عدد من أخطاء الحكم 
على وجود علاقة تصاحب وصلت إلى ۲۹ حالة؛ بسبب وجود خطأ في 
التقسيم الآلي لحدود الكلمات الصينيةء على سبيل المثال عدم اشتمال معجم 
التقسيم الآلي لحدود الكلمات لكلمة "ل" بمعنى "يتحكم' الأمر الذي أدى 
ببرمجية التقسيم إلى اعتبار أن "2834:8820" بمعنى "القدرة على التحكم" يتم 
تقسيمها إلى "18/5/8827" ومن هنا فقد أدى ذلك إلى أن برمجية الحكم على 
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التصاحبات اللغوية اعتبّرت أن كلا من "[862 OL, ABI" 5 A‏ 
تصاحبين لغويين بمعنى 'القدرة على النقل'؛ و'القدرة على توجيه الاتهام' 
على التوالي وهذا خطأ بالطبع. والحقيقة أن التصاحب 调控， 能力”‏ 
وبعد استبعاد عنصري الخطأ السابقين كانت حالات التصاحب التي تم 
تقريرها آليّا هي 41/8 حالة تصاحب. وبعد إجراء مراجعة من خلال العنصر 


البشريء تم إقرار عدد ١59‏ حالة تمثل تصاحبًا حقيقيًا. وبعبارة أخرى؛» فإن 


“oe 


شية دقة الحاسب فى ابتكراج الفسساحبات الثقورية وتحديدها قد ورصلث ١‏ 
في استخراجح aig‏ و | 


.1١۹/١۹4 ٤4‏ ويعرض لذا الجدول ٥-٤‏ جزءًا من نتيجة التجربة 


التي تم إجراؤها على كلمة "8527" في اللغة الصينية. 


جدول 5-4 عرض جزء من البيانات التجريبيةل 


(w= 能 力 ee) Saar 




















نعم ¥ 1( 














{1 ¥ نحم‎ 91 1651 强 3 

4 | 35 177 9 تعم (تأكيد 1) 

提高 | 5‏ | 6058 205 نعم (تأكيد 1) 
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تابع الجدول السابق 












| 
i 


aan] | oo | 072 | 1 | sr | R‏ مسج | لما 
fue [os fo: [ae |‏ سمه | z| = jem]‏ 
وقد عقد سوين ماو سؤنغ مقارنة بين كل من نتائج التصاحبات التي 

"887" التي وردت في (المعجم الكبيير في اللغة الصينية الحديثة) 
"314117508" نظرا إلى أن هذا المعجم هو أكثر معجم قام بتغطية 
الخصائص التصاحبية للكلمات الحقيقية في اللغة الصينية الحديئة بصورة 
تكرارها بين نتيجة التجربة والمعجم» أما الجزء (ط) من الجدول فيعرض 
التصاحبات التي لم يتكرها للمعجم. ويمثل هذا الجدول في الوقتث لقسه 
القائمة الكلية للتصاحبات اللغوية مع كلمة "8527" التي تم استخراجها آليّا بعد 
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جدول 1-4 التصاحبات اللغوية التي تم استخراجها آليا بعد مراجعتها عن طريق 
عنصر بشري 
(المجموع ١١8‏ تصاحبا) 
(a)‏ 


培养 判断 鉴赏 生产 竞争 制造 运输 加 工 支付 偿还 
平衡 消化 吸收 繁殖 实际 具备 缺乏 提高 强 弱 大 差 有 限 
增强 具有 业务 劳动 适应 领导 组 织 分 析 保护 发 挥 工作 
技术 专业 管理 创造 运输 发 电 丧失 防御 指挥 

(b) 

反应 扩大 综合 形成 达到 设计 抗灾 开采 影响 排水 
客运 保障 承受 一 定 执政 反应 安置 配套 不 足 超 过 出 口 
自立 创汇 动手 吞吐 增加 运行 足够 防务 操作 处 理 作战 
通信 同等 自给 自理 防守 减弱 现 有 约束 作业 防卫 鉴别 
通航 负重 不 够 生存 隐蔽 科研 失去 抗 病 炼油 腐蚀 
后 续 识别 抗旱 削弱 限制 识字 存储 自主 对 抗 核算 机 动 
消费 分 流 超出 防洪 自卫 干扰 免疫 再 生 信任 过 KA 
应 急 饲养 运算 扑救 防疫 驾驭 筛选 参政 相应 采油 整体 
通行 核定 载荷 维修 运载 接待 保存 分 辨 保鲜 装备 耐寒 
通车 转换 防范 自救 联运 决策 独到 起 重 输送 新 有 开发 
服务 群众 发 展 测量 显示 突破 依靠 强化 控制 经 营 供应 
下 降 监 督 低 核 拥有 


ويشير الاستقراء الذي أجراه سوين ماو سونغ على التصاحب داخل 
الذخيرة إلى ما يلي: 
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SOOM) أن كلا من القيم الإحصائية الثلاث: القوة التصاحبية‎ )١( 
ودرجة الانتشار 2019 والطفرة التصاحبية قيم إحصائية مناسبة‎ 
لعمل تحليل كمي للتصاحب اللغويء إلا أنها لا تتعدى كونها‎ 
مؤشرات نسبية» والدليل على ذلك أن الجدول رقم 5-4 قد احتوى‎ 
خطنًا في الحكم؛ نظر! إلى عوامل مختلفة.‎ (fis atid 

(۲) أن الخصائص التوزيعية للبيانات الإحصائية تعكس بدرجة كبيرة. . 
الخصائص التركيبية للتصاحب. 

فالشكل ۲-٤‏ يوضح أن جميع حالات التصاحب بين كل من 

"ب ,د88" عبارة عن تركيب فعل ومفعول (حيث ظهرت الطفرة 
التصاحبية في الموقعين -7:-)» أما الشكل 5-4 فيُظهر أن جميع حالات 
التصاحب بين كل من "22 ,88237" عبارة عن تركيب إسنادي (حيث ظهرت 
الطفرة التصاحبية في الموقع »)١+‏ أما الشكل (4-؟) فيُظهر أن التصاحب 
dad Ge GSS OS SRE, SRR‏ ومفعول (حيث ظهرت الطفرة 
التصاحبية في الموقعين -7.-4)» وقد يكون أيضنًا تركيبًا إسناديًا؛ أما الشكل 
5-4 فيُظْهر أن التصاحب بين "758 ,8820" قد حدث معه طفرة تصاحبية 
كبيرة (في الموقع 1( وهذا يعبر عن نموذج من نماذج التصاحب اللغفوي 
القياسي في اللغة الصينية وهو التعبيرة الاسمية المكوّئة على هيئة مسضاف 


ومضاف إليه أو صفة وموصوف. 
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شکل ۲-٤‏ توزيع. 
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عدد مرات ظهور الكلمتين Vie‏ 
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موقع الظهور 
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5 <4 


موقع الظهور 


شكل 4-4 توزيع 
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能 力 -提高 
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موقع الظهور 
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e 
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f 
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aa يتأثر بتغير المجال اللغوي.‎ La) 
Ciel pill بمعنى "القدرة على‎ "BEREAN" المتفق عليهما من الجميع‎ 
و "5188821" بمعنى "القدرة على الإنشاء" لم يظهرا في ذخيرة‎ 
بسبب اختلاف المجال اللغوي.وحتى إذا تم تحديد‎ XH-CORPUS 
المجال اللغوي؛ فإن حجم الذخيرة وطرق اختيار عينات النصوص‎ 
من شأنه أن يؤثر تأثيرًا شديذا في عملية إحصاء التصاحب» كما في‎ 
` الجدول 5-4 حيث نجد أن التصاحبات "#3867" (درجة القوة‎ 
التصاحبية ". 4)» و'95304827" (الطفرة التصاحبية عند‎ | 
(AY VY الموقع -١)؛ و"6827 9836" (درجة القوة التصاحبية‎ 
على الرغم من أن عدد مرات الظهور كانت مرة واحدة» فالجميع‎ 
يتفق على أن كل هذه المجموعات تمثل تصاحبات لغوية. إلا أنه‎ 
بالنظر إلى البيانات الإحصائية الخاصة بها نجد أنها بمشقة قد‎ 
كاسن عد مجر نا‎ J) Wk .القع اكت و كن‎ tay cay, 
ظهورها داخل ذخيرة 1-0018810/5!! فقد قم استبعادها من‎ 
| القائمة النهائية للمتصاحبات.‎ 
أنه بالنسبة إلى قيمة الفرض المبدئي يتم تحديدها كقيمة وسط بين‎ (£) 
كل من معدل الدقة (يقصد به نسبة ما تم إقراره من تصاحبات عن‎ 
طريق تدخل العنصر البشري مقارنة بما تم اكتشافه بواسطة الآلة)‎ 
ومعدل الارتداد (يقصّد به نسبة التصاحبات التي أُقَرَنُْها الآلة مقارئة‎ 
بالعدد الكلي للتصاحبات المٌرّشحة داخل الذخيرة). وبصورة عامة‎ 
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كلما ارتفعت قيمة البداية» ارتفع تبعًا لذلك معدل الدقةء وعلى 
العكس من ذلك» كلما انخفضت قيمة البدايةء ارتفع معدل الارتداد 
وانخفض تبعًا لذلك معدل الدقة. 


وقد كانت الدراسة الاستقرائية لسوين ماو سونغ على الذخيرة تسعى 
إلى اكتشاف أكبر قدر من التصاحب اللغوي بغض النظر عن دقة النتائج 
النهائيةء على اعتبار أن زيادة العدد أفضل من القصور في الحصر؛ ولذلك 
فقد كان متحفظا في تحديد قيمة البداية. 

وإذا أردنا أن نعرف هل 901٠0‏ تقرييًا كمعدل دقة لنتائج التصاحبات 
فيما يتعلق بكلمة "8827" منخفض أم لاء يمكننا أن نطلع على ما أشار إليه 
منمادجا من أن معدل دقة نتائج التصاحبات التي تم اتباعها يدويًا في تأليف 
%٤ Ca Oxford English Dictionary (OED) pax‏ تقريبًا. وعن طريق 
المقارنة يمكننا لقو ل: إن الاستعانة بالحاسب الآلي في اكتشاف التصاحب 
اللغوي يفوق العمل اليدوي» وأن فاعلية النتائج باستخدام الحاسوب أعلى 
بدرجة كبيرة. بالإضافة إلى ذلك فإن استخدام الأسلوب اليدوي من شأنه أن 
يتأثر سلبًا بالعوامل البشرية؛ لأن الإحساس اللغوي يختلف من باحث إلى 
آخر؛ لأن ذلك له علاقة باختلاف المستوى اللغوي والخلفية المعرفية لكل 
شخص» ومن هنا تكون أحكام البشر على التصاحب خالية من الموضوعيةء 
ومن: الصعب التنسيق فيما بينهم. أما استخدام الحاسب الآلي في عمل تحليل 
كمي للتصاحبات اللغوية داخل ذخيرة لغوية كبيرة الحجم من المؤكد أنه 
يخفف قوة ضغط العمل على اللغويين» ويرفع من كفاءة النتائج ومساحة التغطية. 
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الفصل الرابع 
دراسات التصنيف الدلالي للأسماء في اللغة الصينية 


من المعلوم لدى الجميع أن التصاحب بين الاسم والكلمة الكمية') من 
الظواهر المهمة التي تميز اللغة الصينية عن اللغات الهند أوروبية. ويرى 
:العديد من العلماء أن الفائدة الأساسية لتراكيب الاسم + الكلمة الكمية في اللغة 
الصينية الحديثة هي تصنيف الأسماء دلاليًا. ولذلك فإن إجراء استخراج كمي 
على ذخيرة كبيرة الحجم للتعرف على البيانات الكَمّيَّة لتصاحبات الاسم + 
الكلمة الكمية من شأنه أن يساعد في وضع آلية للتصنيف الدلالي لأسماء 
اللغة الصينيةا). وكانت تلك هي الخلاصة التي توصل إليها العلماء 
التايوانيون خوانغ جو رن» وتشين كه جيان» وجاو جاو مينغ من خلال 
الدراسة التي أشرفوا عليها. وقد استعانت هذه الدراسة بشكل مباشر بالبيانات 
التصاحبية عن الأسماء + إلكلمات الكمية التي استخرجها مؤلف الكتاب مسن 
ذخيرة أبحاث اللغة الصينية. وعلى أساس تلك البيانات الكمية الثابتة استعانوا 
بمعادلة الضجيج المعلوماتي في حساب محتوى المعلومات داخل تركيب 


)١(‏ انظر الفصل السابق صفحة 544. (المترجم) 
| 361 


الاسم + الكلمة الكمية مع الاستعانة بأسلوب المُتّجَهات() «s—4 (vectors)‏ 
حساب مقدار التقارئب (الدلالي) بين مجموعتين من المجموعات الاسمية. وقد 
توصل البحث إلى أن استخدام الطريقة سالفة الذكر من شأنه أن يُرشد في 
التوصل إلى نظام يمكن الاعتماد عليه بشكل كبير في تصنيف الأسماء في 
اللغة الصينية. وقد استعان الكتاب الذي بين يدي القارئ بهذا المثال للتعريف 
بالدراسات اللغوية القائمة على ذخائر لغوية» ويرجع ذلك إلى السببين 
التاليين: 
)١(‏ إن هذه الدراسة قد اعتمدت على أمثلة حقيقية عن تراكيب الاسم 
+ الكلمة الكمية والبيانات الإحصائية المتعلقة بهاء التي تم 
استخراجها مباشرة من ذخيرة معهد الدراسات المركزي بتايوان» 
وقد عرضتت نتيجة الدراسة في (معجم الكلمات الكمية المستخدمة 
في تايوان) الصادر عام ۱۹۹۷ عن درا نشر الصحافة بتايوان. ٠‏ 
o (Y)‏ عمل تصنيف لأسماء اللغة الصينيةء وفقا لحالات اقترانها مع 
الكلمات الكمية يتحتم عليه إجراء تمثيل شكلي مستقل عن حالات 
اقتران الكلمات الكمية مع الأسماءء بالإضافة إلى عرض المعادلات 
الخاصة بحساب درجة التشابه فيما بينها. ففي هذه الدراسة» يتم 


)١(‏ المُتّجه (66]05؟) مصطلح في الفيزياء يعني قيمة لها حجم واتجاءء ويتم تمثيلها بسهم 
يُعَبّر عن اتجاهها من نقطة إلى أخرىء والكمياث المُّتجّهة تختلف عن الكميات العددية 
في أنه لا يمكن الاكتفاء عند تحديدها بقيمة عددية فقطء وإنما نحتاج أيضًا إلى تحديد 
اتجاهها. وقد استعان علماء اللغة بهذا المفهوم في حساب درجة اتجاه التصاحب بين 
الكلمات كما يشير النص. (المترجم) 
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حساب الحمل المعلوماتي( الخاص بالكلمة الكمية (يطلق عليه 
أيضًا اسم الإنتروبي أو مقياس درجة الفوضى) من خلال عدد 
الأسماء التي يمكن أن تقترن معه؛ أما معاني كل اسم من تلك 
الأسماء فيتم التعبير عنها من خلال مجموعة الكلمات الكمية التي 
يمكن أن يقبل الاقتران بها (المتّجّهات التي تتكون من ذلك 
الاقتران). ولذلك فمن خلال حساب الفرق بين مُتَجَهات الأسماء 
يمكننا عمل تصنيف لمجموعة الأسماء داخل اللغة؛ ومن É‏ التوصل 
إلى آلية للتصنيف الدلالي لها. إن التمثيل الشكلي للمادة اللغوية التي 
يتم معالجتها وتصميم معادلة مناسبة لحساب طريقة التعامل معها 
تمثل أسلوبًا مثاليًا للنمذجة اللغوية (70061179) بالإضافة إلى 
إمكانية تعميمه. 
وحتى نفهم العمل البحثي الذي قام به خوانغ جو رن وفريقّه البحثشي» من 
الضروري أن نشرح بشيء من التفصيل مفهوم الحمل المعلوماتي الخاص Ss‏ 
عشوائي والذي ورد في نظرية المعلومات للعالم كلود شانون (02هههط891)5]. 
بافتراض أن إس تَعَبّر عن الأحداث العشوائية ۸٠٠2ء‏ فإن احتمال حدوث 


)١(‏ الحمل المعلوماتي أو (الإنتروبي) olde Jj (entropy)‏ درجة الفوضى مصطلح في 
الفيرياء والكيمياء يشير إلى التغير والتحول إلى حالة من الفوضى على المستوى 
الجزيئي في نظام ماء كمثال اختلاط نقطة حبر بالماء» في البداية يكون توزيع ذرات 
الحبر في الماء غير منتظم» وبعد انقضاء فترة زمنية يكتسب الماء لونا متجانسا» ومن 
هنا يمكننا اعتبار درجة الحيرة أو الإنتروبي مقياسا لعدم التأكد أو مقياسَا لعدم 
الانتظام. (المترجم) 
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أي حدث من تلك الأحداث أ يرمز له بالرمز ١‏ . وطبقًا للمبادئ الأساسية لعلم 
الاحتمال فإن: != OS p,Sl,p,+p,+..+ p,‏ 


والحمل المعلوماتي لحدث مُحدّد :” يُحْسَب من المعادلة: 


I(E,) =—log, p; (bit) 


| معادلة رقم (v-t)‏ 


وطبقا لبديهيات علم الاحتمال يمكننا أن نغرف أن الحمل المعلوماتي 7 
أكبر من الصفر؛ وأنه كلما قلت قيمة احتمال ظهور الحدثء زادت قيمة 
الحمل المعلوماتي المصاحب له. الأحداث المؤكذة يكون الحمل المعلوماتي 
الخاص بها (1> ) يساوي صفرا؛ أي أن ظهورها من الأحداث المتوقعة: 
وعلى هذا فهي لا تحمل إلينا أية معلومات. : 

يمكن الاستعانة بقيمة درجة الحيرة AOS) (gay Say!)‏ في الرسالة 
الكلامية للتعبير عن قيمة المتوسط الإحصائي لكمية المعلومات الخاصة بكل 
عنصر من عناصر الرسالة الكلامية 5؛ وذلك وفقا لكمية المعلومات TE)‏ 
التي يحملها كل حدث داخل الرسالة الكلامية (الحمل المعلوماتي) oS‏ كما 
توضح المعادلة التالية: | 


ial (bit) 


معادلة رقم (A-£)‏ 
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ونظر! إلى أن قيمة الحمل المعلوماتي للحدث العشوائي تزداد بزيادة 
درجة عدم اليقين من حدوثه؛ لذلك يمكننا الاعتماد على قيمة الحيرة في 
الرسالة الكلامية (الإنتروبي) كمقياس لدرجة عدم اليقين في حدوث تلك 
الرسالة. وعلى هذا الأساس» لا يمكن أن تكون درجة الحيرة في الرسالة 
الكلامية (الإنتروبي) قيمة سالبة» فكلما زادت قيمة درجة الحيرة ارتفعت تبعا 
لها قيمة عدم اليقين في حدوث الرسالة. وعلى العكس من ذلكء إذا كانت 5 
رشالة كلامية مؤكدة الحدوثء فإن قيمة درجة الحيرة لها تكون صفرًا. 

على فرض أن هناك رسالة كلامية بها عدد ۸١‏ من الأسماء» ومن بين 
هذه الأسماء هناك الاسم يمكن أن يتصاحب ظهوره مع الكلمة الكمية. ×ء 
إذن الحمل المعلوماتي لهذه الكلمة الكمية يساوي الفرق بين درجتي الحيرة 
(الإنتروبي) التاليتين: 


1(X)=H(N)-A(n) 


معادلة رقم (4-) 
وإذا كان احتمال ظهور كل من الاسم والكلمة الكمية متساوء فإن 


احتمال ظهور اقتران بين كل اسم ضمن مجموعة الأسماء ۸ وكلمة كمية 
1 
معينة يساوي ۷ ٠‏ ودرجة الحيرة له يتم حسابها كما يلي: 
H(N)=-$ log) = log, N‏ 
ia N N‏ 


معادلة رقم )٠١-٤(‏ 
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وبالطريقة نفسها فإن درجة الحيرة لاقتران الاسم ” داخل رسالة كلامية 


H(N)=Y, ~log,(~)=log,0 


معادلة رقم )١١-54(‏ 
ومن هنا فإن الحمل المعلوماتي للكلمة الكمية 7 يُحْسب من المعادلة التالية: 
I(x)=log, N —log,n‏ 
معادلة رقم (4-؟7١)‏ 
ونظرً! إلى أن /7 قيمة ثابتة» فإن المعادلة السابقة يكيرنا أنه كلما قل 
عدد الأسماء التي تقترن بكلمة كمية معينة» زاد الحمل المعلوماتي لهذه الكلمة 
الكمية» وزادت تبعًا لذلك قدرة هذه الكلمة في المساهمة في عمل تصنيف 
دلالي للأسماء في اللغة الصينية. وهذا يتفق إلى حدٌّ كبير مع الشعور البديهي 
لكل منا. 
عندما نستخدم مُتجَهًا متعدد الأبعاد للتعبير عن كل اسم (أو مجموعة 
أسماء) داخل السلسلة الكلامية» فإن كل بُعْد من هذه الأبعاد يُعَبّر عن كلمة 
كمية محددة داخل السلسلة الكلامية» وقيمة المُتجه في بُعْد معين من تلك 
الأبعاد يساوي الحمل الملعوماتي لهذه الكلمة الكمية (المعادطشة )٠١-4‏ وإذا 
كان هذا الاسم (أو مجموعة الأسماء) لا يمكن أن تظهر مع كلمة كمية معينة» ` 
فإن قيمة المُّتجه الخاص بها يساوي صفرًا. وعلى أساس ما يُعَبّْر عنه 
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+) oad Ox (affinity) درجة التقارب الدلالي‎ Gals يمكن‎ cage 
$e مجموعتين من الأسماء) عن طريق حساب الفرق بين قيمة‎ 

Se eer ل‎ ys 

الأسماء تقوم بإنشاء تصنيف جديد للأسماء عن طريق ضم أكثر اسمين 
متشابهين معا في تصنيف واحد» وقد نشأً عن ذلك في النهاية شجرة دلالية 
لاأسماء. وقد كانت خطوات الحساب التي أدت إلى عمل تصنيف للأسماء 
كما يلي: 

)١(‏ من خلال المعادلة Y-£)‏ )(< تم حساب الحمل المعلوماتي لعدد 
١‏ كلمة كمية. 

(1) تم اعتبار أن كل كلمة كمية من ال 187 كلمة يُمَتلّها بعد واحد 
داخل مُتّجه ذي os ١87‏ الحمل المعلوماتي لكل كلمة كمية 
يساوي قيمة من قيم المُّتّجه متعدد الأبعاد. 

(5) كل نوع من أنواع الأسماء يساوي متها من تلك المتجهات» وهذا 
المُتّجه يتم الاعتماد عليه في تحديد قيمة المُّتجه الخاص بكل 
الكلمات الكمية التي تتصاحب مع هذا الاسم وفي وضع تعريف لهذا 
التصنيف من تصنيفات الأسماء. 

)٤(‏ بصورة متكررة» يتم ضم أي تصنيفين متجاورين من تصنيفات 
الأسماء بشكل عشوائي في مجموعات لتكوين تصنيف جديدء 
واستخدام apial Aa‏ المقابل لهما في التعبير عن ذلك التصنيف» 
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وهذا المُتّجه الجديد عبارة عن متوسط قيمة المُتّجهين الأصليين 
لهذين التصنيفين (أي 2*72(/2)). ويتم تكرار هذه الخطوة غير 
مرة إلى أن يتبقى تصنيف مفرد. | 
في الخطوة الأولى مما سبق تم التوصل إلى حساب الحمل المعلوماتي 
لكل كلمة كمية. وقد أظهرت نتيجة البحث أن أقل كلمة كمية من حيث الحمّل 
المعلومات هي الكلمة الكمية "7/4')؛ حيث كان الحمل المعلوماتي الخاص بها 
هو .12١1553‏ وهذه نتيجة غير متوقعة؛ وذلك لأن الكلمة الكمية "4" هي أكثر 
الكلمات الكمية التي يتفق عليها الجميع من حيث الوسطية والشيوع؛ حيث 
يزداد عدد الأسماء التي تتصاحب مع هذه الكلمة الكمية؛ ومن تَمَّ فإن قدرتها 
على المساهمة في عمل تصنيف للأسماء ضئيلة للغاية. وباستمرار 
استعراض النتيجةء نجد أن الكلمة الكمية "#” التي وصل حملها المعلوماتي 
إلى مقدار 7057 هي كلمة كمية عامة تَسْتَخْدّم مع الأسماء التي تُعَبر عن 
أسماء الجنس البشري. والكلمات الكمية التي تقترب قيمة الحمل المعلوماتي 
لها من الكلمة الكمية "5" هي AL”‏ و”##', R y‏ وهذه الكلمات الكمية من 
الكلمات العامة التي تقترن مع عدد كبير من الأسماء. كانت الكلمات الكمية 
DR‏ و" وج“ و"85" ذات أكبر قيمة للحمل المعلوماتي للسلسلة 
الكلامية الاسم + الكلمة الكمية؛ حيث وصلت إلى ١١١57‏ وذلك لأن كلا 
منها لم تقترن إلا باسم وأحد. 


)١(‏ الكلمات الكمية في اللغة الصينية لها استخدام وظيفي للفصل بين العدد والمعدود كما 
أسلفناء وليس لها معنى مقابل في اللغة العربية . (المترجم) 
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وعلينا أن نلاحظ أنه في الخطوة الثالثة تم استخدام قيمة المتّجه المُعبّر 
عن كل مجموعة من مجموعات الأسماء في التعبير عن تعريف للعدد الكلي 
للكلمات الكمية التي يمكن أن تتصاحب مع تلك الأسماء. وفي علم اللغة يمكن 
شرح تلك الطريقة على أنها: استخدام جميع الكلمات الكمية التي يمكن أن 
تقترن مع الأسماء في وصف الخصائص الدلالية المشتركة التي تتمتع بها 
تلك المجموعات من الأسماء. ولذلك فإنه نتيجة لعدم القدرة على التمييز بين ` 
مجموعات الأسماء التي تشترك في التصاحب مع كلمة كمية واحدة؛ يتم 
اتخاذ قرار منطقي بضمها معا في تصنيف واحدء بالإضافة إلى التعبير عنها 
بمتجه واحد. لذلك» فعلى الرغم من أن معجم الكلمات الكمية يضم عدد 
٠‏ لاحقة اسمية وما يزيد عن ۲٠٠١‏ مادةء فإنه لم يتم التقسيم إلا إلى 
عدد ٠٠۲‏ سلسلة كلامية من اسم + كلمة كمية مختلفة والمتجهات الخاصة بها. 

إن نتيجة عملية التصنيف سالفة الذكر قد تم: التوصل إليها من خلال 
تصور شجرة ذات فرعين. وكل طرف من أطراف تلك الشجرة يشير إلى 
- اسم من الأسماء يشار إليه من خلال الكلمات الكمية التي تقترن معه. وأي 
اسمين بينهما أكبر قدر من التقارب في القيم يتم ضمهما معا في تصنيف 
اسمي جديد. ويتم تكرار تلك العملية إلى أن يتم وضع جميع الأسماء في 
تصنيف ينتمي إلى شجرة واحدة. إن مدى مناسبة ومصداقية الفرض وطريقة 
الحساب التي اعتمد الكاتب عليها يتوقف على مدى قدرتنا على تقديم تصنيف 
دلالي مناسب انطلاقا من تلك الشجرة التي تم التوصل إليها. ْ 

وتشير نتيجة التجربة التي قام بها خواتغ جو رن وفزيقه البحشي أن 
الشجرة التي يقل عدد أفرعها عن أربعة أفرع» يمكن الحصول منها على 
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نتيجة تصنيف دلالي موثوق بها. وقد حصلوا من خلال تلك الطريقة على 
۷١-٠۰‏ تصنيفا له مغزى من تصنيفات الأسماء» ويعرض الشكل 1-4 
تصنيفين من تلك التصنيفات. 
شكل :)1-٤(‏ جزء من نتيجة التصنيف الدلالي للأسماء 
[ كلا ， a. 房子 ， 屋子 [个 ， 栋 ， 间‏ 
ao, RE, BE, HS, BS, ARR, A, i]‏ 
楼 房 ， 洋房 [个 ， BM, te, fl, ty]‏ 


oe, €B, KE, E, EKHE, tA, AB 
BF, FF, BS, BS, SRR, HR, fl, te] 


镖 ， 飞 镖 [ 支 ， 枝 , 枚 ] 
WR, Wt, i, SH, AM, BHI, &] 


b. RF, TT, BE, WF, 4%, R, RI 
X, K, ^, RIBE, XE, F, BH, KF, 
ITRE, RE, KBE, EE, MEX, &, #] 


KH, HE, BSE, BR, 烟 ， 香 烟 ， 大 麻 烟 ， 
洋 烟 ， 长寿 烟 [ 支 ， 枝 , 根 ， 条 ] 


EF, 电线 杆 [ 支 ， 枝 ， 个 ， 根 ， 排 ] 

كما أظهرت نتيجة التجربة أنه عندما تزيد أفرع الشجرة عن خمسة 

أفرع فإن النتيجة تشير إلى اختلافات كبيرة يتعذر معها التصنيفء وفيما يلي 
نقدم شرحًا لأسباب ذلك: | : 




















)١(‏ من المحتمل ألا تكون قيمة المُتّجّه الجديد الذي يُحسّب بعد عملية 
الجمع بين الأسماء غير مؤكدة. وهذا الوضع يؤدي إلى اختفاء 
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. بعض العناصر بصورة سريعة؛ وذلك لأن عدم تمييز الكلمات 
الكمية غير الاقترانية في أثناء حساب الحمل المعلوماتي لمجموعة 
الكلمات الكمية موضع الدراسة يؤدي إلى حدوث تصنيف خادع 
وغير واقعي للأسماء. ولذلك نجد أن هذه الطريقة لا تمكننا من 
تمييز حالتي التضارب الدلالي وعدم الارتباط الدلالي. وإذا تحدثنا 
من الناحية النظرية نجد أن الفئتين الفرعيتين اللتين بينهما تضارب 
دلالي تُضئعف كل منهما الأخرى. وهذا يعني أنه بالنسبة إلى الفئات 
الجديدة التي يتم التوصل إليها فإن هذه الخصائص المحدّدة غير 
ذات صلة. ومع ذلكء فإذا لم تكن هناك علاقة بين الكلمات التي لا 
تتصاحب مع تلك الكلمات؛ التي تم تجميعها في تصنيف واحدء فإن 
الخصائص الدلالية التي تم ترميزها لتوضع في فئة فرعية أخرى 
ما زالت هناك إمكانية لتأثرها بتلك الفئات التي تم تكوينهاء ومن هنا 
يتضح أن قدرتها الوصفية تضعف. وحتى يمكننا حل هذه المشكلة 
فإن هناك حاجة إلى تصميم نموذج أكثر دقة. ولكن هذا النموذج 
يتطلب أن تشير المعاجم ضمن بياناتها إلى معلومات توضح 
الأسباب التي تمنع تصاحب كلمة كمية معينة مع مجموعة من 
الأسماء. ومن الناحية المنهجية فإن هذا الوضع سوف يؤدي إلى 
عدم إمكانية استخدام البيانات التجريبية في إثبات الفروض موضع 
الجدل. ولذلك فقد كان من غير المجدي التعمق في هذا الاتجاه. 


)١(‏ دائمًا ما يكون هناك لبس في عملية مراقبة الكلمات الكمية. على 
سبيل المثال الكلمة الكمية ea "HR"‏ إلى سبع خصائص دلالية 
كما يلي: 

(أ) أشياء طويلة ورفيعة. 

)=( حيوانات طويلة. 。 

(ج) أشياء طويلة فوق الأرض (نفق- قناةء وما إلى ذلك). 

(د) خط بما في ذلك الخطوط التجريدية. 

(ه) قانون» لائحةء je‏ 

(و) مصير. 

(ز) أغنية. وقد اعتبّر خوانغ جُو رن وفريقه البحثي في دراستهم كل 
كلمة كمية عبارة عن علامة وحيدة» ولم يتجهوا للتمييز بين 
خصائصها الدلالية المختلفة. وفائدة ذلك تكمن في سهولة المعالجة؛ 
ولكن من الممكن أن تَضَْعَ الكلمات ذات الخصائص المختلفة في فئة 
واحدة؛ وذلك بسبب أن لها علامات شكلية متشابهة. ويستعين 
خوانغ جو رن وفريقه البحثي حاليًا بالمعلومات الواردة في معجم 
للكلمات الكمية ومعجم آخر لتصاحبات الكلمات الكمية مع الأسماء؛ 
للحصول على علاقات تصاحب أكثر. تفصيلا والوقوف على حصر 
لجميع المعاني لكل كلمة كمية. وعلى هذا الأساس فقد زادت 
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مجموعات الأسماء وفقا للحقول الدلالية إلى ما يزيد عن الضعف؛ 
ghee gee‏ 31 متصوعة: وذ اذى ذلك ى تكن م 
التمييز الصحيح لمجموعات الأسماء التي تم تصنيفها بصورة 
خاطئة؛ بسبب نقص تفاصيل استخدام الكلمات الكمية في أثناء 
عملية التحليل الأولى. وسوف يؤدي ذلك إلى نتيجة أفضل بالنسبة 
إلى عمليات التصنيف الدلالي للأسماء. 
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الفصل الخامس 
استقراء إشكاليات التداخل المعجمي النحوي 


عن طريق استعراض التراكيب النحوية المختلفة ذات الصلة بمجموعة 
من الكلمات المترادفةء يمكننا أن نمَيّز أكثر الكلمات ye Ud‏ حيث المعنى» 
بالإضافة إلى أنه من خلال استعراض أنواع الكلمات المختلفة التي ترتبط 
بالتركيب النحوي للمترادفات يمكننا أن نمَيّز بين التراكيب النحوية الأكشر 
تشابهًا. وهذا النوع من الدراسات يُطلق عليه اسم: دراسات التداخل المعجمي . 
.(Lexico-grammatical associations) „5 saill‏ 

وقد قام بيبر (2. ory (Biber‏ استعراض للعلاقات التحوية المتعلققة 
بصفتين مترادفتين في المعنى بدرجة كبيرة وهما "»11)41"» و"11دعدة"'؛ وذلك 
في محاولة للتمييز بين هاتين الصفتين مسن خلال أنماط الاس تخدام 
المختلفة[90]. وقد cs yl‏ الدراسة أنه على الرغم من أن معنى هاتين 
الكلمتين هو 'صغير" بالإضافة إلى أنهما تستخدمان دائمًا في موقع النعت أو 
المسند في الجملة؛ فهناك اختلاف واضح بينهما في درجة تَحَيْرْ لكل منهما 
في مدى الاستخدام في هذين الموقعين النحويين» وهذا التحَيّز تجاه وظيفة 
نحوية ما دونا عن الأخرى له علاقة وثيقة بسياق الاستخدام. 


ففي اللغة الإنجليزية تقع النعوت (attributive adjectives) åja d‏ 
قبل الاسم في الجملةء وشتخدم في تقديم معلومات تخص ذلك الاسم. على 
سبيل المثال: 
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"The little girl next door pulled him through the fence". 


"But I’m not a small person". 

أما الصفات التي تأتي في موقع المسند فترد بعد الأسماء الموصولة 

(119ام0»)» ووظيفتها تقديم معلومات عن المسند إليه داخل الجملة» على سبيل 
المثال: 

"When she was little, she couldn’t say Jessica". 

"Did you think it would be too small?" 


وتضم الذخيرة التي تم العمل عليها جزأين: الجزء الأول عبارة عن 
ذخيرة من نصوص حوارية يصل حجمها إلى خمسة ملايين كلمة تم 
اجتزاؤها من ذخيرة بي إن سي (870)» والجزء الثاني عبارة عن ذخيرة 
من نصوص علمية يصل حجمُها إلى خمسة ملايين كلمة تم اجتزاؤها من 
ذخيرة لونجمان- لانكاستر (1:325461-102512212). وقد تم عمل ترميز 
آلي لأنواع الكلمات داخل الذخيرة بأكملها؛ حيث أضيفت إلى كل كلمة 
معلومات تَبَيّن نوعها النحويء بما في ذلك علامات لتمييز النعوت الوص فية: 
ولتت الخو ية 

وقيما يلي Stace Mt PgR lA shel) Glial ayy‏ ابه 
ee NL À "small" s‏ 0 خبرية: 

Ei 

a 
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وتظهر نتيجة الإحصاء أن غالبية حالات ظهور هاتين الصفتين في 
الذخيرتين تتجه إلى موقع النعت في الجملة وليس موقع المسند. وفي الوقت 
نفسه أظهرت نتائج الإحصاء أن كلمة SI Guus Cg “small”‏ بكثير من 
"little"‏ في موقع المسند؛ حيث كانت النسبة في النصوص الحوارية ؟907: 
وفي النصوص العلمية وصلت إلى .%١۳‏ في حين أن نسبة ظهور كلمة 
1 في موقع النعت الخبري كانت قليلة بشكل ملحوظ (%۲ في 
النصوص الحواريةء وأقل من %١‏ في النصوص العلمية). ` 
بالإضافة إلى ذلك فقد قام بيبر بعمل استطلاع للعلاقات النحوية 
الخاصة بالفعلين المتردافين '«فعء”؛ "start" g‏ ففي معظم الحالات كان من 
الممكن لهذين الفعلين أن يتبادلا المواقع؛ مثل: 
"After the race started..."‏ 
"After the race began... "‏ 
ففي الحقيقةء إن هذين الفعلين متشابهان تمامًا في قدرتهما على تكوين 
علاقات نحوية؛ بمعنى أنهما متكافئان من حيث القدرة على الاقتران مع 
الكلمات الأخرى. فيمكن لكلا الفعلين أن يكون لهما صفة التعدي واللزوم في 
الوقت نفسه»ء على سبيل المثال: 
)١(‏ نمط التعدي: اقتران الفعل مباشرة بمفعول به مُكون من تعبيرة 
اسمية؛ مثل: 
"Then they started/begun [leaving the quota system] "‏ 


(۲) نمط الزوم: لا يقترن بمفعول به مباشر؛ مثل: 
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"I had better issue a survival kit before we start/begin". 


ففي حالة التعدي» إما أن يكون المفعول المباشر تعبيرة اسمية» أو 


جملة فعلية مصدرية؛ مثل 'جملة فرعية -ه) أو جملة حالية تحتوي 'جملة 
"begin" ga JS ib da fing- ie à‏ و "١4۲٤ء"‏ صيغتي التحول التاليتين: 


)١(‏ في نمط التعدي تحتل الجملة الحالية التي تحتوي "19" مكان 
المفعول به بعد الفعل مباشرة. 
"They had started/begun[leaving|before I arrived".‏ 
(۲) في نمط التعدي تحتل الجملة الفعلية المصدرية "0" مكان المفعول 
به بعد الفعل مباشرة. وفيما يلي نعرض نتائج الدراسة الاستقرائية 
التي قام بها العالم بيبر (816) على ذخيرة في مجالين لغويين 
مختلفين» الأول نصوص روائية (؟ مليون كلمة)» والثاني نصوص 
علمية (۲ مليون كلمة) وذلك للتعرف على حالات الارتباط النحوي 
لهذين الفعلين. وقد تم اجتزاء نصوص تلك الذخيرة بأكملها من 
ذخيرة لونجمان Longman -Lancaster 六 "LS‏ 


جدول :)١-4(‏ نت نتيجة استقراء حالات الارتباط النحوي 









LN) Gt å "start" 9 "begin" لفعلي‎ 





































-40+ جملة إجمالي 
ee‏ 
نصوص 
۰ روائية (AYY) YYA | (%Y)A (%YY)e‏ 06 
Begin‏ — 
yapa‏ 
علمية (PI)TY | (re) | (AYYY | (AEA‏ | )%1۰( 
نصوص 
روائية (1N) | (%۰) | ((%11)0°° 01١‏ | )%1( 
Start‏ |— 
لصو 
عل“ (%r£)9)‏ | %1۲( | 1)1( | )%1( | )%1( 
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وقد أظهرت الدراسة التي تَمّت على تلك الذخيرة أن الفعلين قد ظهرا 
في جميع حالات الاقتران التي تم رصدها. إلا أنه قد تبين من المعلومات 
الإحصائية وجود طريقتين للاستخدام على درجة من الأهمية: 

begin" Jeil duis أكثر من‎ "start" حالات اللزوم للفعل‎ )١( 

)١(‏ يتجه الفعل “begin”‏ إلى الاقتران مع المفعول به المُكوّن من الجملة 

الفعلية المصدرية 'الجملة الفرعية-60" أكثر من الفعل '4:هاه'. 

وقد أظهرت نتيجة الإحصاء أن نسبة ۰ من حالات ظهور الفمفل 
"start‏ في النصوص الروائية كانت في الحالة اللازمة» أما في النصوص 
العلمية فقد وصلت إلى 0 وعلى العكس من ذلك» كانت حالات ظهور 
للنصوص العلمية. 
معناه التعبير عن بداية مرحلة معينة؛ مثل: 
tt. the soil formation process may start again in the fresh material".‏ 


"Blood loss started about the eighth day of infection..." 


“Tillering starts about a week or earlier after broadling". 
غالبًا ما يكون المسند في هذا النوع من الجمل الذي تمثله الأمثلة‎ 
السابقة مُعَبّرًا عن تصنيف اسميء بالإضافة إلى أن. الفعل في مثل هذه الجمل‎ 
يتبعه حال. ففي ذخيرة النصوص الروائية كانت أغلبية حالات المسند إليه‎ 
تشير إلى إنسان أو جمادء وغالبًا ما يأتي بعد الفعل في تلك الجمل حال. على‎ 
سييل المثال:‎ 
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"As he started down the hill,he could see it... "‏ 
the train had started again... "‏ ..." 
ومن هناء نجد أن هناك حاجة إلى مزيد من الدراسات عن الحال الذي 
يظهر في الجمل التي تحتوي أحد تلك الأفعمال اللازمة. كما أظهرت 
الإحصاءات أن الفعل "مفع56" في الذخيرتين غالبًا ما يأتي في حالة التعدي 
وذلك مقارنة بالفعل '5:ه". ففي النصوص الروائيةء كانت نسبة %۷۲ من 
حالات ظهور الفعل "ه7681 يقترن بها مفعول به عبارة عن صيغة المصدر 
المُكونة من.'10 + جملة صغرى"؛ أما في النصوص العلمية» فقد وصلت 
نسبة تلك الحالة إلى 960754 وعند عقد مقارنة نجد أن نسبة اقتران الفعمل 
"Start’‏ بمفعول به مكون من "0غ + جملة صغرى" وصلت إلى 967١‏ (في 
النصوص الروائية) و %٠١‏ (في النصوص العلمية). 
ونظرًا إلى دقة التمييز الآلي للمفعول به "40 + جملة صغرى “. فقد قام' 
العالم بيبر بعمل دراسة على مستوى أعلى عن هذا النمط من الاستخدام في 
ذخيرة من عشرة ملايين كلمة تم استخراجها من ذخيرة لونجمان لانكاستر 
n ia A-E Jotall eb, .Longman-Lancaster‏ الدراسة. وقد 
أكدت الدراسة دقة النتائج السابقة بمعنى أن هناك ارتباطًا وثيقا بين ظهور 
حالة التعدي Guy begin Jill‏ استخدام المفعول به المكون من "20 + جملة 
صغرى ٠"‏ وعلى الأخص في النصوص الروائية؛ حيث وصلت النسبة إلسى 
٠‏ أما الفعل "start"‏ فقد كانت حالات اقترانه مع أشكال التعدي الأخرى 
أكثر قوة. 
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جدول 8-4 نتيجة استقراء حالات الارتباط النحوي 
start’ g begin" gåt 2.‏ في ذخيرة أكبر حجمًا 
kaa‏ ا 
+to-‏ التعدى الأخرى 
( 













نصوص 


وقد أوضح بيبر (81065) من خلال دراسته الاستقرائية على تلك 
الذخيرة اللغوية أنه على الرغم من إمكانية القول بوجود تشابه كامل بين 
الفعلين cya "start" g “begin”‏ حيث المعنى وأنماط التصاحب النحويء فإن 
كلا منهما قد أظهر اختلافا عند الاستخدام الواقعي مع اختلاف المجال 
اللغوي. وهذا يوضح أنه لا يمكن الاعتماد على الحس اللغوي لدى الإنسسان 
في القطع (أو التوجيه) فيما يتعلق بأنماط الاستخدام؛ وأن الإنسان (يما في 
ذلك المتحدثين الأصليين للغة) لا يمكنه التنبؤ بوجود أنماط الاستخدام ذات 
الطبيعة المنظومية بصورة صحيحة»ء وأن أقصى ما يمكن التنبؤ به هو تحديد 
أي مجموعة من الأفعال ترتبط بأي نمط من أنماط الاقتران اللغوي. وعلى 
العكس من ذلك فقد أظهرت الدراسة الاستقرائية على الذخيرة أن الكلمات 
التي يبدو عليها من النظرة السطحية أنها مترادفةء إذا نظرنا إليها من ناحية 
أنماط الاقتران في أثناء الاستخدام اللغوي» فمن النادر التوصل إلى تطابق 
كامل بينها. 
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الفصل السادس 
الدراسات المتعلقة بتنوع المستوى اللغوي 
(register variation)‏ 


يتم تحديد المستويات اللغوية وفقا لظروف الاستخدام؛ مثل الغرض من 
الكلام» والمضمونء ومكان الاستخدام» والقدرة التواصليةء والأسلوب 
المستخدم. فبالنسبة إلى أي متحدث باللغة هناك أهمية قصوى لعملية استيعاب 
(أو القدرة على استخدام) المستويات اللغوية المختلفة. ولا نكون مبالغين إذا 
قلنا: إنه لا يوجد شخص يمكنه الاكتفاء باستخدام مستوى لغوي واحد؛ بمعنى 
أن الناس في أثناء اليوم الواحد قد يستخدمون اللغة نفسها في التحدث أو 
الكتابة بأساليب متنوعة تنتمي إلى مستويات لغوية مختلفة. ومن هنا فإن 
الشخص يحتاج إلى التمتع بالقدرة على الاختيار السليم (أو التحول) بين 
المستويات اللغوية المختلفة. ففي جميع مراحل اكتساب اللغة التي يمر بها 
الإنسان» تكون هناك أهمية قصوى لعملية اكتساب الخصائص اللغوية لكل 
مستوى من مستويات الاستخدام اللغوي. 

فسواء كان الغرض من ذلك هو فهم مراحل اكتساب اللغفة في 
مستوياتها المختلفة» أو كان ذلك بغرض التوصل إلى وسائل فعّالة يستخدمها 
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مدرسو اللغات في تعليم اللغة باستخدام أسلوب المستويات اللغوية» فإن كل 
هذا يتطلب في البداية التغلب على مشكلات وصف الخصائص اللغوية 
لمستويات الاستخدام المختلفة للغة» بغرض التوصل إلى التمييز الصحيح لتلك 
المستويات. وعلى الرغم من أن الباحثين قد انتبهوا مبكرًا إلى أهمية هذا 
النوع من الوصف اللغويء فإن الواقع يؤكد أن هذا الهدف لا يمكن الوصول 
إليه إلا عند الاستعانة بمنهجيات الذخائر اللغوية في البحث اللغوي. ويرجع 
ذلك إلى أن التعمق في دراسة المستويات اللغوية المختلفة يحتاج إلى توافر 
العناصر الثلاثة التالية: 

)( الاعتماد على كمية هائلة من النصوص كمواد أساسية للدراسة. 

(۲) التطرق إلى عدد كبير من الخصائص اللغوية. 

(؟) عمل مقارنات كمية بين المستويات اللغوية المختلفة. 

ومن الواضح أن جميع هذه العناصر تحتاج دائمًا إلى ذخائر لغوية 
كبيرة الحجم؛ بالإضافة إلى الحاجة إلى استخدام تقنيات التحليل المختلفة 
المتعلقة بهذه المهام. ففي البداية» يكون جمع عدد كبير من النصوص هو 
حجر الأساس لمثل هذه الدراسات؛ وذلك لأن النتائج البحثية التي يتم التوصل 
إليها مع نضوص قليلة تكون غير دقيقة بالقدر اللازم. 

هذا بالإضافة إلى أن دراسة المستويات اللغوية التي تعتمد على أسلوب 
المقارنة لا يمكن أن تقدم وصفا متعمقًا لتلك المستويات اعتمادًا على عدد قليل 
من الخصائص اللغوية. وعلى هذا الأساس أيضنًا لا يمكن أن نقدم وصفا 
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تلخيصيًا دقيقًا للخصائص اللغوية المتعلقة بكل مستوى. وفي الحقيقية:؛ لا 
يمكننا الاعتماد على خاصية لغوية بارزة في تمييز سمات مستوى لغوي 
٠‏ معين إلا إذا كان الأمر متعلقا باقتصار ظهور هذه الظاهرة في هذا المستوى 
دونًا عن غيره. وقد أثبت الواقع اللغوي أن العديد من المستويات اللغوية 
تتمتع بمجموعة من الخصائص اللغوية المشتركة فيما بينها؛ مثل معدلات 
ظهور الأسماءء والضمائرء والأفعالء والصفات» وما إلى ذلك. ولا يمكن 
التمييز بين هذه المستويات إلا من خلال مقارنة القيم التنفصيلية لمعدلات 
ظهور هذه الخصائص في مستوى معين مقارنة بباقي المستويات. وبعبارة 
أخرىء» فإن الخصائص اللغوية المحورية التي تظهرها الفروق المنظومية في 
أثناء الاستخدام اللغوي من شأنها أن تقدم أدلة يمكن الاعتماد عليها في التمييز 
بين المستويات اللغوية المختلفة. . 

وفي النهاية» لا بْدَ من الإقرار أن الدراسات القائمة على تحليل 
المستويات اللغوية تتطلب الاعتماد على أحد أساليب المنهج التقابلي؛ بمعنى 
أنها تحتاج إلى نقطة انطلاق (»هفاءوه0) لعمل المقابلة» حتى يمكن الحكم 
على عدد مرات ظهور خاصية (أو مجموعة من الخصائص) في أحد 
المستويات اللغوية. فعلى سبيل المثال» أظهرت دراسة استقرائية قام بها العالم 
بيبر (+816) أن الجملة الموصولة تظهر في النصوص الإنجليزية بمعدل 
٠‏ مرة كل ألف كلمةء الأمر الذي اعتبر معه أن ذلك أعلى معدل تواتر؛ 
لأن متوسط ظهور هذا النوع من الجمل يتراوح بين ٠١-١‏ مرات كل ألف 
كلمة» ويتحدد عدد مرات الظهور التفصيلي وفقا للمستوى اللغوي. وعلى 
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العكس من ذلكء إذا وجدنا أن الأسماء تظهر بمعدل ٠٠١‏ مرة كل ألف كلمة 
في نوع معين من النصوصء وكان معدل ظهور الأسماء هو ۲١‏ مرة لكل 
Gall `‏ كلمة» فإن ذلك يُعتبر حالة نادرة. 


وفيما يلي.نقدم تعريفا للدراسة التي قام بها العالم بيبر (8156) للتعرف 
على مقدار الاختلاف بين المستوى الشفهي والتحريري للغة[91]. ليس فقط 
لأن دراسة الفروق بين كل من المستوى التحريري والشفهي في اللغة من 
الموضوعات الساخنة دائمًا؛ التي يهتم بها العلماء في كل لغة» بل لأن تلك 
الدراسة ستتيح لنا فرصة التعرف على مجموعة الخصائص اللغوية التي 
استعان بها بيبر (:8156) للتمييز بين هذين المستويين اللغويين» بالإضافة إلى 
التعرف علسى منهجية التحايل متعدد الاتجاهات dimensional)‏ 
كزوتزلهصة-:4اناه) التي ابتكرها بيبر (8106) واستخدمها لأول مرة. 

في أثناء عمل دراسة تقابلية واسعة النطاق بين كل من المستوى 
التحريري والشفهي للغة» مجموعة 
الخصائص اللغوية التي سيتم على أساسها عقد المقارنة. فعلى سبيل المثال» 
عن طريق الاستقراء يمكننا التوصل إلى أن هناك فرقا كبيرًا بين عدد مرات 
ظهور الجملة الموصولة في كل من النصوص العلمية والنصوص الحوارية 
في اللغة الإنجليزية. وعلى العكس من ذلك؛ فإن استخدام صيغة الفمل 
الماضي في هذين المجالين قليلة: ظهرت صيغة الفعل الماضي في النصوص : 
العلمية بمعدل ۲۲ مرة كل ألف كلمةء وفي النصوص الحوارية ظهرت Vo‏ 
مرة. أما في النصوص a mE ESL‏ 
كل ألف كلمة. 
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ووفقا لهذا السبب» فإنه من غير الممكن الاعتماد على التوزيع النسبي 
لخاصية لغوية معينة في التمييز بين المستويات اللغوية المختلفة. ففي' 
الحقيقة» أن الخصائص اللغوية التي يمكن التطرق إليها كثيرة جدّاء فضلاً عن 
ضعوبة التكهن بأي منها يلعب دور مهما في عملية تحديد خصائص 
المستويات اللغوية موضع الدراسة. وفي الحقيقة أن الدراسات العلمية 
أظهرت أن الخصائص التي تظهر السمات اللغوية للنصوص الحوارية 
تشمل: الجمل المتقطعة (fragmented)‏ والتركيب المزجي «(contraction)‏ 
وضمير المخاطب (you)‏ والجمل الاعتراضية. leis «(know you)‏ غير 
المتصرفة (be able to: need to: have to)‏ بالإضافة إلى الجملة الفرعية 
التي تحتوي المكمل -1//7. وما إلى ذلك. وعلى العكس من ذلكء؛ نجد أن 
الخصائص التي تظهر السمات اللغوية للنصوص العلمية تشمل: أنواعًا معينة 
من الكلمات تظهّر بصورة مكثفة داخل تلك النصوص؛ مثشل الأسماءء: 
والصفات النعتية» وأسماء الأشياء» وغير ذلك من الكلمات ذات الطابع 
الخاصء بالإضافة إلى صيغ المبني للمجهول من الأفعال والأبنية ذات 
الطبيعة الخاصة» «(it is possible that) fie‏ وما إلى ذلك. 

وعلى الرغم من أن علماء اللغة قد اتفقوا على أن هناك عددًا من 
الأنماط اللغوية تظهر معا في مستويات لغوية محددة؛ فإنه من الصعب 
التوصل إلى إحصاء كمي لعدد مرات ظهور هذه الأنماط اللغوية. وفي الحقيقة 
أن تمييز مجموعات الخصائص اللغوية التي تتصاحب معًا في المستويات 
اللغوية المختلفة لا يمكن أن يتحقق بشكل واقعي إلا من خلال استخدام 
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منهجيات الذخائر اللغوية. وقد أثبتت منهجية التحليل متعدد الاتجاهات التي 
طرحها العالم بيبر في ثمانينيات القرن العشرين قد أثبتت أن منهجية الذخائر 
اللغوية هي الأساس الذي يمكن من خلاله الانطلاق لحل هذه المشكلة. 

إن الأساس الذي ينطلق منه التحليل متعندد الاتجاهات لوصف 
الاختلافات بين المستويات اللغوية المختلفة يعتمد على ذخيرة شفهية وأخرى 
تحريرية تضم عينات تغطي نطاقا واسعًا لكل مستوى لغويء ومن 
الضروري أن تَعَبّر تلك الذخيرة بصورة كاملة عن الأنماط اللغوية الأساسية 
التي تتصاحب معا في إحدى اللغات (مثل اللغة الإنجليزية على سبيل 
المثال). وقد استعان التحليل متعدد الاتجاهات الذي أجري على اللغة 
الإنجليزية في ثمانينيات القرن الماضي بذخيرة عامة» تتكون من عدد ٤۸١‏ 
نصنًا يحتوي 450٠6٠‏ كلمة. من بينها عدد "4٠‏ نصنًا تم اختيارها من ذخيرة 
لوب؛ بحيث غطت تلك النصوص إلى حد كبير النصوص التحريرية من 
الذخيرة» مثل النصوص العلمية» وافتتاحيات الصحف» والروايات وما إلى 
ذلك؛ أما النصوص الباقية؛ التي وصل عددها ٠٤١‏ نصًا فقد بم اختيارها من 
ذخيرة لندن- لوند (0سدارآ1-ه00هم.1) الشفهية» وتضم الحوارات المباشرةء 
والمحاضرات العلنيةء ونصوص الخطب الشفهية» وما إلى ذلك. 

إن أول خطوة من خطوات التحليل متعدد الاتجامات هي تحديد 
مجموعة الخصائص اللغوية التي سيتم دراستها. والغرض من هذه الخطوة 
هو تجميع الخصائص اللغوية على نطاق واسع؛ حيث يمكن من خلال تلك 
الخصائص اللغوية تقديم شرح يوضح الوظائف اللغوية لتلك النصوص. وقد 
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قدم بيبر قائمة بعدد TY‏ خاصية لغوية من خلال التحليل متعدد الاتجامات 
للغة الإنجليزية» ويمكن ضمها في ستة عشر نموذجًا نحويًا: 

)١(‏ علامة الزمن والحالة. 

: المعبر عن المكان والزمان.‎ Jal (Y) 

(۴) الضمير المعبر عن الاسم؛ والضمير المعبر عن الفعل (ط؟-صمهم). 

| الاستفهام.‎ )٤( 

(5) الصيغ الاسمية. 

(1) المبنى للمجهول. 

(۷) صيغة الحالة. 

(۸) خصائص الإضافة. 

)٩(‏ تعبيرات الجار والمجرورء والصفات» والظروف. 

)٠١(‏ المفردات الخاصة. 

)١١(‏ الأنواع النحوية للمفردات. 

)1١(‏ الأفعال المتصرفة.. 

' الأفعال التي لها سمات خاصة.‎ )٠١( 

)١4(‏ التراكيب المختصرة؛ التي يَنَثْر استخدامها. 

(15) العطف. 

)١15(‏ النفي. 
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والخطوة التالية التي اتبعها بيبر هي تصميم برمجية حاسوبية لتمييز 
كل خاصية لغوية داخل النص وإحصائها. مع مراعاة أن هناك عدذا من 
الخواص المركبة تحتاج إلى أسلوب تمييز يعتمد على التكامل بين الآلة 
والإنسان. هذا إلى جائب أن جميع الخصائص التي تتوصل الآلة إلى تمييزها 
يتم مراجعتها ومطابقتها من خلال التدخل البشري؛ وذلك لضمان دقة التمييز. 

تدع مما سق أن کو ت ی ب جو رین Ro‏ 
خلال عمليات الاستقراء التي تمت على الذخيرة الإنجليزية كبيرة بصورة 
تلفت النظر. فالذخيرة مُكَونة من عدد 44١‏ نصاء وكل نص من شاأنه أن 
. يُخرج نتائج إحصائية عن معدلات تكرار W‏ خاصية لغوية. وحتى يمكن 
التوصل إلى مجموعة الخصائص اللغوية التي تشترك في الظهور داخل 
نصء اعتمد بيبر على أسلوب إحصائي أطلق عليه اسم تحليل العوامل" 
gay .(analysis factor)‏ تقنية إحصائية تعتمد على العلاقات التبادلية 
U2 all (correlational)‏ منها تمييز مجموعة المتغيرات المتشابهة من حيث 
نسب التوزيع داخل النص. أي أن أسلوب تحليل العوامل يعني التوصل إلى 
مجموعة الخصائص اللغوية التي تتجه لأن تتصاحب Ga‏ داخل النص. 

وقد أطلق بيبر لفظ "مؤشر" على مجموعة الخصائص التي تشترك في 
الظهور معا؛ التي تعبر عن تغير مجال النص. على سبيل المثال» قد تكون 
مجموعة الخصائص المشتركة مُكوّنة من ضمير المتكلم» وضمير المخاطب»ء 
وأدوات الاستفهام التي تيدأ ب twh-‏ وقد تكون مجموعة خصائص أخرى 
مكونة من الأسماءء وتعبيرات الجار والمجرورء والصفات النعتية وما إلى 
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ذلك. ومن خلال الخصائص اللغوية التي يتم الحصول عليها من أسلوب 
تحليل العوامل يمكن التعبير عن توزيع مجموعة الحقائق اللغوية المرتبطة 
بكل خاصية في كل نوع من أنواع النصوص. على سبيل المثال» عندما يضم 
نص معين كمية كبيرة من الأسماء» فمن المعروف أن هذا الوضع يصاحبه 
ظهور كمية كبيرة من تعبيرات الجار والمجرور والتعبيرات الوصفية» وعلى. 
العكس من ذلك إذا كانت الأسماء في نص معين قليلة العددء فإن ذلك سيؤدي 
إلى قلة ظهور تعبيرات الجار والمجرور والتعبيرات الوصفية. 


ونظر! إلى أن تلانّم ظهور الخصائص اللغوية يعكس السمات 
المشتركة بين النصوص الثي تنتمي إلى حقل لغوي واحدء فإنه بعد اكتشاف 
الخصائص اللغوية التي SS‏ 'مؤشر” الحقل اللغوي» يمكننا تقديم شرح 
للوظيفة اللغوية التي يمثلها هذا المؤشر؛ وذلك من خلال عناصر ثلاثة هي 
المشهد الذي يعبر عنه النص» ووظيفة النص من الناحية الاجتماعية 
والمعرفية. على سبيل المثالء ظهور ضمير المتكلم وضمير المخاطب وجمل 
الاستفهام المباشر والأمر بصورة كبيرة داخل النصوص الحوارية من شأنه 
أن يقدم شرحًا لخاصية التواصل التي يتسم بها هذا:النوع من النصوص؛ 
وذلك لأن استخدام جمل الاستفهام المباشر وجمل الأمر تتطلب وجود شخص 
مستمع مطلوب منه التجاوب مع المتحدث؛ أما ضميري المتكلم والمخاطب 
فيشير كل منهما إلى المتحدث والمستمع على التوالي. وعلى المنوال نفسهء 
فإن أسلوب القصر وبدايات الحديث الخاطئة lh (false starts)‏ 
الحقيقية المشيرة إلى أشياء عامة gama (thing Ju)‏ لها علاقة بالعوامل 
التي „ac Šg Ciy sal‏ 
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وقد تمكن بيبر من خلال التحليل متعدد الاتجاهات الذي أجراه على 


ذخيرتين شفهية وتحريرية للغة الإنجليزية من تمييز خمسة مؤشرات 
للتحول النصي. . 


وفيما يلي نورد مجموعة الخصائص اللغوية التي تتلازم مع المؤشر 
الأول؛ حيث إن كل مؤشر يتكون من خاصيتين لغويتين تتلازمان معا في 
الظهور؛ بمعنى أن ظهور إحدى هاتين الخاصيتين بكثافة داخل النص 
يستدعي ظهور الخاصية الأخرى بوضوح» والعكس صحيح. وهاتان 
الخاصيتان المتكاملتان يمكن الإشارة إليهما ب 'الأصل" و"الفرع. ففي 
المؤشر الأول نجد أن مجموعة الخصائص اللغوية الأصل هي: وجود أفعال 
الشعور مثل feel", <'think®‏ وخذفت كلمة ا من الجمل الفرعيةء 
والقصرء وصيغة الفعل المضارع» وضمير المخاطب. أما مجموعة 
الخصائص الفرعية فتشمل: وجود الأسماءء والكلمات الطويلة» وتعبيرات 
الجار والمجرورء وصيغة المقارنة» والصنفات النعتية. 









on | ay. [that a | 
leet al peel MN) قر اا‎ 
| |..4ه-‎ awe] m | الفعل في صيغة‎ 


الأفعال المعبرة عن الإمكانية 


Wh 







حروف الجر التي تقع في آخر 
الجملة 
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وأمام كل خاصية نلاحظ وجود رقم» هذا الرقم يعبر عن وزن 
(loading)‏ هذه الخاصية بالنسبة إلى المؤشر الأول: وهو رقم يشير إلى قوة 
oy (strength of the relationship) bt YI‏ المؤشر الأول ووجود هذه 
الخاصية. ومن هذاء يمكننا أن نلاحظ درجة تمثيل (representative)‏ هذه 
الخاصية اللغوية في هذا المؤشر. ويتراوح وزن الخاصية من ١‏ إلى .١-‏ 
فكلما كبرت القيمة المطلقة للوزن ارتفعت قيمة تمثيله داخل المؤشرء وعندما 
تصل قيمة الوزن إلى رقم واحد صحيح فإن هذا يعني الارتباط الكامل. ويبدو 
من الجدول أن أول خاصية في: المؤشر الأول هي ارتباط ظهور أفعال 
الشعور مع الأسماء (حيث كان وزن كل منهما ٠,٩١‏ و-٠۸,٠‏ على 
التوالي)» وهذا يمثل أقوى ارتباط داخل نطاق هذا المؤشر. وبالمقارنة نجد 
أن الأفعال المعبرة عن الإمكانية )٠,٠١(‏ أكثر ارتباطًا مع الصفات النعتية 
)£97( | 

فكل خاصية لغوية لها وزنها الممثل لها داخل المؤشر. ونظر! إلى أن 
الخصائص التي تتمتع بأوزان عالية هي تلك الخصائص التي تعبر عن 
المؤشر. بصورة أكبر من غيرها من الخصائصء لذلك فإن هذا الأمر يُعَوَلَ 
عليه كثيرًا في وضع تفسير لوظائف المستوى اللغوي الذي يعبر عنه ذلك 
المؤشر. فغالبًا عندما تزيد القيمة المطلقة لخاصية من الخواص عن ٠,٠١‏ 
فإن هذه الخاصية يمكنها أن ينظر إليها بعين الاعتبار في عملية التفسير. 

وعلى أساس قيمة وزن الخاصية يمكن عمل إحصاء كمي للخصائص 
التي تزيد قيمتها المطلقة عن ٠,٠‏ حتى يمكن حساب القيمة التي يحصل 
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عليها هذا النص في أحد المؤشرات؛ وهذا ما يطلق عليه اختصارًا درجة 

.(dimention score) %54‏ وعلى مستوى أعلى» يمكن عمل إحصاء كمي 

لإجمالي النصوص التي يتكون منها مستوى معين داخل الذخيرة بأكملهاء 

ومن هذا الإحصاء يمكننا التوصل إلى المتوسط الحسابي لقيم المؤشر في كل | 
مستوى لغوي. وعلى هذا الأساس يمكننا وصف الخصائص اللغوية لأي حقل 
من حقول اللغةء الأمر الذي يمكن معه عقد مقارنة بين أي مستويين لغويين» 
بالإضافة إلى عمل تحليل كامل لوظائف كل مؤشر. 
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الباب الخامس 
تطبيقات منهجية الذخائر اللغوية 
في عدم اللغة الحاسوبي 
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لم يكن على سبيل الصدفة الظهور المفاجئ والسريع لمنهجية الذخائر 
اللغوية ونماذج التحليل الإحصائي للظواهر اللغوية وتحولهما لتيار أساسي لا 
يُستغنى عنه في مجال الدراسات المتعلقة بمعالجة اللغات الطبيعية (NLP)‏ 
وعلم اللغة الحاسوبي اللذين ظهرا مع تسعينيات القرن العشرين. ونحن على 
ثقة كاملة أن القارئ سوف يلمّس من الأمثلة التي سوف نسوقها في 
الصفحات التالية مدى نَمَيّز هذه المنهجية. 
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الفصل الأول 
الدراسات المتعلقة بإزالة اللبس 
في نمييز حدود الكلمات داخل النصوص الصينية 


يُعتبر اللبس في وضع حدود للكلمات الصينية والكلمات التي لم يتم 
تسجيلها أهم إشكاليتين تؤثران في مستوى دقة نتائج برمجيات التمييز الآلي 
لحدود الكلمات الصينية. وبصورة عامة» يمكننا تقسيم إشكاليات اللبس في 
تمييز حدود الكلمات الصينية إلى إشكاليتين فرعيتين: الأولى هي مشكلة 
اللبس بسبب التداخل في عملية تقسيم سلاسل الرموز؛ والثانية مشكلة اللبس 
بسبب التعدد الدلالي لبعض الرموز الصينية. وعند التطبيق الواقعي لعملية 
تمييز حدود الكلمات الصينية نجد أن غالبية حالات اللبس ترجع إلى اللبس 
الناتج عن التداخل في عملية تقسيم سلاسل الرموز. طبقا لتقرير التقييم الذي 
تم على برمجية التمييز الآلي الجزئي لحدود الكلمات الصينية الذي تم 
تصميمه عام ١145‏ في إطار المشروع الصيني القومي رقم 878 لإنشاء 
الحواسيب الذكية"""ء فإن دقة تمييز الكلمات الصينية باتباع منهجية إزالة 
اللبس الناتج عن التداخل في التمييز قد وصلت إلى HVA‏ أما درجة الدقة 
في تمييز اللبس الناتج عن التوليد فقد وصلت إلى 9654: وتشير تلك الأرقام إلى 
أن الدراسات المتعلقة بمشكلة تمييز اللبس في أثناء.عمليات تمييز حدود الكلمات 
الصينية ستظل المحور. الرئيس في حقل معالجة المعلومات باللغة الصينية. 
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وفيما يلي نعرض الدراسات المتعلقة بتمييز حدود الكلمات من خلال 
إزالة اللبس الناتج عن التداخل في التمييزء التي تمت في كل من جامعة شان 
شي وجامعة تشين خوا على ذخيرة واسعة النطاق. وحتى يمكننا التعريف 
بتلك الدراسات» فمن الضروري البدء بشرح بعض المصطلحات الأساسية 
المتعلقة بهذا المجال في اللغة الصينيةء ولمزيد من المعلومات عن تعريف 
تلك المصطلحات» انظر المرجع رقر""'. 

سلسلة الكلمات التي تحتاج إلى فصل تداخل الحدود بين عناصرها 
يُطلق عليها اختصارًا اسم (سلسلة متداخلة): على فرض أن لدينا سلسلة 
Cy By eA SKY cn VE A‏ وأن كلاً من تلك الكلمات يتكون من 
رمز أو عدة رموز. فإذا كانت الكلمات لم؛» 5 (BC 5 (AB‏ و© جميعها من 
الكلمات الموجودة في قائمة الكلمات الصينية المتعارف عليهاء فإن السلسلة 
الكلامية 48€ يُطلق عليها اسم سلسلة كلامية تحتاج إلى إزالة اللسبس من 
خلال فصل تداخل الحدود. وبطبيعة الأحوال فإن هذا النوع من السلاسل . 
المتداخلة يحتوي حالات أكثر تعقيذا من ذلك المثالء كما يلي: إذا كانت عملية 
تمييز حدود الكلمات تعتمد فقط على قائمة الكلمات المتعارف عليها في اللغة 
الصينية ولا يتداخل معها إشكاليات أخرى كالإشكاليات النحوية والدلالية» فإن 
نتيجة التمييز ستكون مناسبة سواء كان تقطيع الرسالة الكلامية إلى ٥/۸8‏ أو 
كان 80/4. على سبيل المثال سلسلة الرموز "1783" يمكن تقطيعها إلى 
"8/7" يستخدم في..."» وكذلك يمكن التقطيع إلى A a WAF‏ 
يُستخدم في...'؛ والسلسلة "579" يمكن تقطيعها إلى "ا/لاا]5" 'يمكن من 
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أجل..."٠‏ وإلى "[5/ 139" "إلا أنه يعتقد أن...'. ولذلك نطلق على '2(832"'؛ 
أو "وا 2ا [#" اسم سلسلة متداخلة. i‏ 

العناصر المتداخلة: الكلمات التي تتداخل في التمييز داخل السلسلة 
الكلامية يُطلّق عليها اسم عناصر متداخلة. على سبيل المثال» الكلمتان 
"7# و "۴" في السلسلة "8/4 يطلق عليهما عنصران متداخلان. 

طول سلسلة التداخل: عدد العناصر المتداخلة داخل السلسلة الكلامية 
يُطلّق عليه طول سلسلة التداخل. وعلى ذلك؛ فإن طول سلسلة التداخل في 
كل من السلسلتين الكلاميتين "۴ ٠/781‏ و"5119130" هو اثنان. ويتضح من ' 
ذلك أن طول سلسلة التداخل ينبغي أن يحتوي عنصرين متداخلين على أقل 
قر وة لخر فان اقل قر هكن ا ك gis Gtk He‏ 
متداخلة هو عنصران فة فقط. وبالمنطق نفسه» فإن أية سلسلة متداخلة لا يمكن 
أن يقل العدد الكلي للرموز الصينية المُكوتة لها عن ثلاثة عناصر. 

محور التداخل: الجزء الذي يتكرر في الكلمتين اللتين تنتّجان من عملية . 
التمييز يُطْلَق عليه اسم محود التداخل. وعدد الرموز المُكوئة لهذا الجزء 
يُطلّق عليه طول محور التداخل. فمحور التداخل في السلسلة "27183" هو 
sks "FH‏ هذا المحور رمز واحد. 

السلسلة ذات الطول الأكبر في التداخل: على فرض أن 5 سلسلة 
كلامية معينة» وفي داخل هذه السلسلة يوجد سلسلة فرعية عبارة عن سلسلة 


متداخلة هي (3, فإذا كانت 5 لا تحتوي عنصرا! يتداخل مع Sr gla Si‏ 
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يُطلق عليها اسم السلسلة ذات الطول الأكبر في التداخل. والمثال التالي عبارة 
عن سلسلة متداخلة أكثر تعقيدًا: 


大 部 分 手工 业 品 


هذه السلسلة تحتوي ثلاثة عناصر متداخلة: العنفصر الأول هو 
ka "大 部 分 ，‏ والثاني هو Sil BPR‏ والثالث هو" اا1" 
'منتجات'يدوية الصنع". فمحور العنصرين المتداخلين الأولين هو الرمز 
"۶" أما محور العنصرين الآخرين فهو الرمز "3" وطول محور التداخل 
هو رمز واحد» وطول سلسلة التداخل هو ثلاثة رموز صننية. والجدير 
بالملاحظة أن الكلمتين "الا-1 65" 'صناعة يدوية"؛ 9 “cule gia ie’ TMV‏ 
في هذه السلسلة كلمتان متداخلتان. ولكن نظرًا إلى كون هاتين الكلمتين 
متضمّنتين في إطار كلمة أكبر هي di agy cle giad "FIWA" ilS‏ 
فإن كلا من "F-7"‏ "صناعة ou Y "le guana TA g "4a gay‏ 
اعتبارهما عناصر متداخلة. 

والهدف من تمييز أكبر طول لسلسلة التداخل هو وضع حدود فاصلة 
لهذا النوع من السلاسل؛ حيث إن السلسلة ذات الطول الأكبر لا يمكن لها أن 
تحتوي عناصر تداخل مع أية سلسلة رموز في الفراغ النصي المحيط بها. 
وهذا الوضع ol Sin! Cn USS‏ هذه السلسلة الكلامية ومعالجتها بصورة 
منفردة. ففي الجملة التالية على سبيل المثال: 
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"经 济 法 有 普遍 的 强大 约束 力 " 

"القوانين الاقتصادية تفرض قيودَا كبيرة على نطاق واسع"؛ فنجد أن 
"258229" 'تقريب بصورة كبيرة"» و"[382209852" 'قيود كبيرة" سلسلتان 
متداخلتان» إلا أن الأولى مُتضمّنة في الثانية. ولذلك فإن السلسلة TAKA"‏ 
ليست هي السلسلة ذات الطول الأكبر في هذا المثال. ولا يبقى في هذا المثال 
إلا السلسلة "382493452" وهي التي لا تدخل في إطار سلسلة أخرى داخل ‏ " 
هذا المثال» وهي تُعْتَبر بذلك السلسلة ذات الطول الأكبر في المثال. 

وفي أثناء استخراج السلاسل المتداخلة أو السلاسل ذات الطول الأكبر 
في التداخل من الذخائر اللغوية يتم استخدام المعادلتين الإحصائيتين "نسبة 
الشكل” (معدل التكرار الثابت)ء و"النسبة العددية" (معدل التكرار المتغير) 
على التوالي وتعريف هاتين المعادلتين كما يلي: 

a kes ducal‏ النسبة المئوية لعدد مرات تكرار نوع معين: 
من أنواع السلاسل ذات الطول الأكبر في التداخل بالنسبة إلى العدد الكلي 
لمرات تكرار جميع الأنواع؛ وتحسب بالمعادلة التالية: 
النسبة النوعية عدد مرات تكرار نوع من أنواع السلاسل 

= (%) 


ذات الطول الأكبر في التداخل 
العدد الإجمالي لأنواع السلاسل ذات الطول 
الأكبر فى التداخل 





)١-١ (معادلة‎ 
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النسبة العددية: هي النسبة المئوية لعدد مرات ظهور نوع معين من 
أنواع السلاسل ذات الطول الأكبر في التداخل داخل الذخيرة بالنسبة إلى 
العدد الكلي لمرات ظهور جميع أنواع السلاسل ذات الطول الأكبر في 
التداخل. وبَّحْسَب بالمعادلة التالية: 


عدد مرات ظهور نوع من أنواع السلاسل ذات الطول 
| النسبة العددية (%) = الأكبر في التداخل %1.۰ 


العدد الكلي لمرات ظهور جميع أنواع السلاسل ذات الطول 





أولاً: دراسة جامعة شان شي 

قام كل من العالمّين جنغ جيا خنغ» وليو كاي يينغ من جامعة شان شي 
الصينية بعمل دراسة مسحية عن سلاسل الرموز المتداخلة في ذخيرة لغوية 
مُكَوّنة من مليون وثمائمائة ألف كلمة» ولكنهما لم يُمَيْرَا في دراستهما بين 
السلاسل المتداخلة والسلاسل ذات الطول الأكبر في التداخل!*". كما أنهما”' 
G es Li‏ مختلفا لطول سلسلة التداخلء ولتسهيل عملية الشرح سوف نعتمد 
على مجموعة المصطلحات التي سبق ذكرها وتعريفها في عرض نتيجة 
em‏ | 
ومن خلال الدراسة المسحية التي تمت على الذخيرة اللغوية نجح جنغ 
جيا خنغ» وليو كاي يينغ في استخراج عدد 16٠٠‏ حالة لسلاسل رموز 


متداخلة» وقاما ببناء بنك لهذا النوع من سلاسل الرموز. وعلى أساس ما هو 
متعارف عليه في المعاجم الصينية أو نتائج الإحصاءات التي تمت على 
ذخائر لغوية من أن حوالي %۷٠0‏ من الكلمات الصينية تتكون من رمزين» 
فقد تم التركيز على أن تنحصر وحدة تقطيع السلاسل الرمزية في رمزين 
فقط. وقد ورد في تقريرهما أنه باعتبار كل رمزين معيارا لتمييز الكلمات» 
فقد تم استخراج عدد ۸۳۷۸ سلسلة متداخلة من بين ال 10٠0٠‏ حالة لسلاسل 
الرموز المتداخلة» أي (9684,7). ويوضح الجدول ١-5‏ نتيجة التوزيع 
الإحصائي داخل هذا العدد من السلاسل وفقا لطول سلسكة التداخل. 


جدول (1-0): النتيجة الإحصائية لسلاسل:الرموز المتداخلة وفقا 







%14,١ oo, 








AYY, YTY WEY,Y 





%1,۷ YAN 








a., 1۹ 








Hyaa YTVEY 





من خلال البيانات الإحصائية السابقة» يمكننا ملاحظة أن مجموع عدد 
السلاسل التي لها طول تداخل وحدتين وثلاث وحدات بلغ نسبة %۹٦,١‏ من 
العدد الإجمالي لسلاسل التداخل» وأن عدد مرات ظهور هذين النوعين يصل 
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إلى 969377. ومن هناء إذا تم التوصل إلى حل مشكلة تمييز السلاسل التسي 
يصل طول تداخلها إلى وحدتين أو ثلاث وحدات» فإن ذلك من شأنه أن يرفع 
من نسبة الدقة في عمليات تمييز حدود الكلمات الصينية بصفة عامة. كما قام 
كل من جنغ وليو بعمل دراسة مَسحيّة عن نتائج تمييز حدود الكلمات الصينية 
باعتبار الأطوال المختلفة لسلاسل التداخل؛ وطرَحًا استراتيجيات التمييز الآلي 
القائمة على هذه الأنواع. إلا أن التقرير العلمي لدراستهما ما زال منحصرا في 
إزالة التداخل القائم على اعتبار كل رمزين معيار! لتمييز الكلمات. 
)1( انحصرت نتائج تمييز السلسلة ۸8٥‏ باعتبار طول سلسلة التداخل 
وحدتين في أربع حالات كما يلي: 
أ- نتيجة التمييز هي ©4/8 كما في المثال "لح 4 8" الذي يتم تمييزه . 
إلى "2 8]/للا" 'يُظهر نفسه". F‏ 
ب- نتيجة التمييز هي 48/0 كما في المشال gill "出 现在‏ يتم | 
تمييزه إلى B EBR‏ في". 
ج- نتيجة التمييز هي 880, كما في المثال "#78" 'أمسراض 


pe os 


معدية . 


د- عدم الاستقرار على طريقة للتقطيع. 
ويوضح الجدول ۲-١‏ النتيجة الإحصائية التي تمت على ذخيرة 
للنصوص الإخبارية حجمها مليون وثمانمائة كلمة. 
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جدول (3-5): نتيجة تمييز السلاسل المتداخلة ۸8٤‏ داخل الذخيرة 
Aa dadas |‏ 































is gil المتداخلة‎ 

%e YYY， AIBC 
TT AY AB/C 
VAN, ° VE ABC 
%1,1 YY غير مُحَدّد‎ 
%1۰ o4 الإجمالي‎ 








ويتبين من نتيجة الإحصاء السابقة أن نسبة التمييز للسلاسل المتداخلة 
على النمطين ‘A/BC‏ و 48/٣‏ تصل إلى %۸۹,٤‏ وأن نسبة عدد مرات 
الظهور وصلت إلى .%۸٠,1‏ ومن بين هذه النسبة نجد أن تمييز نمط 
الاقتران 48/0 من خلال التصاحبات الأكبر في اتجاه القراءة من اليسار 
إلى اليمين) قد حقق نتائج تمييز صحيحة؛ وعلى هذا فقد تركزت صعوبة 
التمييز عندما يكون طول سلسلة التداخل وحدتين في نمط السلاسل المتداخلة 
.A/BC‏ 
(۲) عند تمييز سلسلة التداخل 48٤٥‏ باعتبار أن طول التداخل ثلاث 
وحدات» انحصرت نتائج التقطيع في النقاط التي يوضحها 
الجدول التالي: 
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جدول (ه-”): نتيجة تقطيع سلاسل التداخل باعتبار 
طول التداخل ثلاث وحدات 


%1,4 103 





AAAY | 409 





% 8 











A/BC/D 
A/B/CD 


ABC/D 
AB/C/D 




















% ABCD 
on, £ daa غير‎ 
A الإجمالي‎ | 








ويُظهر الجدول الإحصائي السابق أن نمط التقطيع 48/٥5‏ سواء على 
مستوى النسبة النوعية أو على مستوى النسبة العددية يحتل نسبة %۹۸ 
تقريبًا من بين أنماط التقطيع الأخرىء» مثل سلسلة التداخل ٠4%"‏ 
كانت نتيجة التقطيع الصحيحة لها هي "722/02" 'تم بالفعل". لذلك» فقد 


اتجهت منهجية تقطيع سلاسل التداخل بطريقة ثلاثية إلى أن تكون نتيجة 


التقطيع على النمط .AB/CD‏ 

(۳) عند تمييز سلسلة التداخل ۸8٤5۴‏ باعتبار أن طول التداخل أربع 
وحدات» لوحظ أن صعوبة التقطيع تتركز في الرموز AAD‏ 
Ia Y "DARIY A La sal) as cle. II‏ 


الاستمرار في تمييز كلماتها بصورة صحيحة إلى مجموعة الكلمات 
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R۴"‏ إلا بعد النجاح في تمييز السلسلة الداخلية 
le" 人民/ 为"‏ أنها مُكوتّة من الکلمات "۴/2 14۴/۸". 
(4) عند تمييز سلسلة التداخل 8801011 باعتبار أن طول التداخل 
خمس وحدات» كانت نتيجة التمييز الصحيحة هي “AB/CD/EF"‏ 
متل '"& #1 ۴" التي تم تمييزها إلى مجموعة الكلمات 
h/t"‏ 8/۶ م" "جودة المنتجات الصينية". 
وقد اكتشف كل من جنغء وليو من خلال العمليات الإحصائية التي 
تمت على الذخيرة أنه من خلال تحليل عدد ال 4545 سلسلة متداخلة 
باعتبار طول التداخل وحدتين» هناك ثماني حالات اختلفت نتيجة تمييزها مع 
اختلاف السياق؛ مثل: 

السلسلة "ء۸ ": يتم تمييزها إلى "4/١"‏ كما في السياق 
姐妹 /三 /人 "‏ 

从 /小 学 /到 /中 学 。‏ "انتقلت الأخوات الثلاث من المدرسة الابتدائية 

إلى المدرسة الإعدادية'» ويتم تمييزها إلى ١"‏ /#" كما في السياق 
Me Age powell peg yell Cokes! "她 /从 小 /学 /戏剧 /表演‏ صغرها". 

السلسلة "149 ل<ا": يتم تمييزها إلى '/48:]ة/لاا' كما في السياق 
"力量 。 /军事 /的 /核心 /为 /北约 /以 /确立 '‏ "إنشاء قوة عسكرية مركزها 
حلف الناتو"» Ghat pei LS AE" eY Ga Laa ja pag‏ 
N E"‏ "على بُعْد خمسين كيلو مترا من مدينة 
شينغ بينغ من جهة الشمال": | 
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أما عند تحليل عدد ال "٤٠١۹‏ سلسلة متداخلة باعتبار طول التداخل 
ثلاث وحدات» فلم يحدث أي اختلاف في التمييز بسبب تغير السياق. لذلك فقد 
١‏ نصحا بضرورة تركيز الاهتمام بسلاسل التداخل المختلفة» بالإضافة إلى 
التعامل بصورة منفردة مع الأمثلة الخاصة التي تحمل تطرُهًا وتؤدي إلى 
نتائج تخليل تختلف مع تغير السياق؛ وذلك في أثناء الدراسات المتعلقة بوضع 
استراتيجيات تمييز السلاسل المتداخلة. 

وعلى أساس الدراسة الاستقرائية التي تمت على التذخيرة اللغوية 
الصينيةء تمكن فريق البحث بجامعة شان شي من وضع قواعد تمييز 
السلاسل المتداخلة باعتبار أن طول التداخل وحدتانء وقد استخدموا تلك 
القواعد في عمل اختبار مغلق لتمييز أنواع التداخل على عدد ٤٠٤١‏ سلسلة 
وقد وصلت دقة التمييز في هذه العملية إلى %۸۷. ثم استعانوا بالقواعد 
نفسها في عمل اختبار مفتوح على ذخيرة للنصوص الصحفية ms AF Ss‏ 
مليوني كلمةء فكانت نسبة الدقة .%۸١‏ 

فما يجب الإشارة إليه هو أن نتيجة الدراسة السابقة التي أُجريّت في 
جامعة شان شي عبارة عن إحصاء لوحدات تقطيع النصوص الصينية بطول 
وحدتين للتداخل: وأن الذخيرة التي تم الاستعانة بها ذخيرة لا يتعدى نطاقها 
مليونا وثمانمائة كلمة. وأن الواقع الحقيقي لظاهرة السلاسل المتداخلة أكثر 
تعقيدًا مما توصل إليه فريق العمل. 
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ثانيًا: دراسة جامعة تشينغ خوا 

لجامعة تشينغ خوا؛ التي تضم عدد ١١76371‏ كلمة؛ في استخراج جميع 
السلاسل المتداخلة التي وصل عددها إلى ۲۳۳١۸۸۸‏ نوعا؛ وذلك من ذخيرة 
105 للنصوص الصحفية؛ التي يصل حجمها إلى VeNeOY‏ 
كلمة[46]. وقد تراكم عدد مرات ظهور هذه السلاسل في Rcorpus b p53‏ 
da‏ إلى ۷ مرةء بإجمالي عدد رموز يصل إلى 0015 
ويمثل هذا العدد من الرموز نسبة 65,51؟ من -Reorpus 3_233 aaa‏ 


ويعرض الشكل ١-5‏ المنحنى البياني ٣٠7‏ للسلاسل ذات الطول 
الأكبر في التداخل ” مع مراعاة أولوية الظهور داخل الذخيرة» وبمعلومية 
معدل تغطية السلاسل المتداخلة ”. وقد أظهرت الإحصاءات أن عدد ال 
٠‏ سالسلة المتداخلة ذات معدل التكرار الأعلى؛ التي توالى ظهورها منذ 
بداية الذخيرة قد تجاوزت نسبة تغطيتها oy ho‏ ال ٤٦١۹‏ سلسلة التي 
لها أكبر طول تداخل؛ التي توالى ظهورها منذ بداية الذخيرة قد وصلت نسبة 
تغطيتها إلى 9059,7. 

ومن أجل تجريب النتيجة التي تم التوصل إليهاء قام فريق البحث بعمل 
مراجعة لمعدل تغطية ال ٠٦۱۹‏ سلسلة التي لها أكبر طول تداخل؛ التي تم 
التوصل إليها سابقا على ذخيرة أطلق عليها اسم ونام:م»4 وتضم نصوصنا 
صحفية» وعلمية» وعسكرية يصل حجمها إلى ستة ملايين كلمة. ويوضح. 


41] 


الشكل 7-5 أن عدد ال 4115 سلسلة التي لها أكبر طول تداخل؛ التي 
توالى ظهورها في ذخيرة 5م18605 احتفظت بنسبة التغطية نفسها تقريبَا 
عندما تم تطبيقها على ذخيرة 05م4»0:2؛ حيث وصلت نسبة تغطيتها إلى 
1. وهذا الرقم» على الرغم من من كونه أقل من نتيجنة التغطية 
بذخيرة Reorpus‏ فإن نسبة الانخفاض ما زالت محدودة بدرجة كبيرة. وهذا 
يعني أن نسبة التغطية التي تم الحصول عليها من ذخيرة 5نام:1220 مستقرة 
إلى حدٌّ كبير» وأن تأثير تير مجال الاستخدام اللغوي فيها ليس كبيراء وهذا 
٠‏ يعني أن تلك النسبة قياسية ويمكن تعميمها. 
شكل (ه-١):‏ نسبة التغطية في ذخيرة Reorpus‏ 
معدل تغطية السلاسل المتداخلة ”7 مع مراعاة أولوية الظهور داخل الذخيرة 
بمعلومية السلاسل ذات الطول الأكبر في التداخل 7" 


100. 00% 
80. 00% 





شكل (5-5): معدل التغطية Acorpus 5 Sal) Jala r‏ 
للسلاسل المتداخلة ذات الطول الأكبر 7 
التي تتمتع بنسبة تواتر أعلى داخل 243 6 Reorpus‏ 
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70. 00% 

60. 0C% 
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وقد استخلص سوين ماو سونغ من ال 45١5‏ سلسلة التي لها أكبر 
طول تداخل؛ التي توالى ظهورها في Rcorpuss‏ ثلاث حالات للبس 
كما يلي: 
)١(‏ لبس زائف: حيث يكون هناك نتيجة واحدة لتمييز السلسلة المتداخلة. 
(1) لبس حقيقي من النوع. :١‏ حيث يكون هناك نتيجتان أو أكثر 
() لبس حقيقي من النوع :١‏ جوهر السلسلة يشير إلى وجود لبس 
حقيقي؛ ولكن دائمًا ما يكون هناك نتيجة واحدة للتمييز. وبعبارة 
cal‏ فإن فرص ظهور نتيجة أخرى للتمييز تكون قليلة جداء 
لدرجة أنه يمكن إدراج هذا الصنف ومعالجته تحت تصنيف عدم 
وجود لبس. 
ويُظهر الجدول 4-5 النثيجة الإحضائية لنسب Lal obs‏ دلغل 


الذخيرة. 
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جدول (ه-4): النتيجة الإحصائية لنسب حالات اللبس 
النسبة النوعية 

















والسبب في بروز عدد حالات اللبس الزائف في نتيجة الإحصاء هو أن 
التحليل له حالة واحدة Led‏ وهذا أمر ليس له علاقة بالسياق؛ لذلك يمكن 
البدء بتسجيل نتائج التمييز الصحيحة لهذا النوع من الكلمات في قائمة» ولن 
يحتاج الأمر إلا إلى عملية معالجة بسيطة من خلال تلك القائمة حتى يمكن 
تمييز هذا التوع عن الكلمات بصورة حكيقة دلخل الفضحوصب .ونظر إلى أن 
مجموع نسب اللبس الزائف واللبس الحقيقي من النوع ١‏ قد غطت %۹۸,١‏ 
من إجمالي ال 4515 سلسلة التداخل ذات معدل التكرار الأعلى في ذخيرة 
DOA, puig Reorpus‏ من إجمالي سلاسل الكلمات ذات الطول الأكبر 
في التداخل» لذلك فإن استراتيجية التمييز البسيطة التي ذكرت آنفا تعتّبّر من 
الوسائل الفعالة بدرجة كبيرة في حل مشاكل اللبس في تمييز الكلمات داخل 
السلأسل المتداخلة. 

وبمراعاة الخصائص الشكلية للسلاسل ذات الطول الأكبر في التداخل؛ 
مثل طول سلسلة التداخل» وطول الاقتران» وطول السلمبلة وغيرها من 
العوامل» فإن ذلك من شأنه أن يؤثر تأثيرًا مباشرًا في استراتيجيات تمييز 
الكلمات داخل السلاسل المتداخلة. وقد قام سوين ماو سونغ في المرجع 
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رقم بإحصاء توزيع تلك العوامل الثلاثة داخل الذخيرة اللغوية. وكانت 
نتيجة الإحصاء كما يلي: 


د السلاسل ذات الطول الأكبر في التداخل داخل ذخيرة :Reorpus‏ 

يُسْتخدم الرقمان المُسَجّلان بين القوسين في العمود الذي يحمل عنوان 
-o oe‏ -ه ليشير كل منهما إل بداية العناصر المتداخلة» 
وطول سلسلة التداخل على التوالي. على سبيل المثال: في الصف الأول من 
الجدول نجد ما يلي: '(80)0,2(01,2 15" حيث إن الرقم الأول في (0,2) 
يُشير إلى أول عنصر في سلسلة التداخل وهو "1318"؛ حيث يقع الرمز الأول 
فيه في الموضع الأول من السسلة (أي أن موقعه في السلسة = صفر) وطوله 
يساوي اثنين (أي أنه قد تم تمييز كلمة مُكوّنة من رمزين)؛ أما الرقمان 
)۲١۱(‏ فيشير الأول منهما إلى ثاني عنصر في سلسلة التداخل وهو "88 8"؛ 
حيث يقع الرمز الأول فيه في الموضع الثاني من سلسلة التداخل (أي أن 
موقعه في السلسة-١)‏ وطوله يساوي اثنين أيضًا (أي أنه قد تم تمييز كلمة 


مُكونة من رمزين). 
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جدول (ه-5): توزيع أطوال السلاسل ذات الطول 
الأكبر فى التداخل(') 





الطول عدد ا 1 0 الذ 4 ae‏ 
和 La PA‏ أمثلة واقعية 
| المسجلة رج an‏ 


项 目的 (0,2)(1,2)， 上 海 市 (0,2)(1,2)， 为 








0 0 
.人民 (02)(L2)， 和 服务 (020 | 2 | rr AD YF 
在 意大利 (0,2)(1,3)， 离 退休 金 0 0 
(3.3)(1.3)， 行 政 区 域 (0.3)(2.2) ATIA | to, | ١٠5 £ 
进 一 部 到 位 (0,3)(2,4)， 自来水 龙头 0/ 0 
(0,3)2,3), BRR) )0,4( 0:3 00,۹۸ YY, | -一 ° 





(0,4)(2,4) ' 





少数 民族 自治 区 (0,4)(2,4)(4,3)， 与 此 同 


























of 0 
时 差不多 (0,4)(,2)(4,3) a من افد الت‎ 
主持 人 请 不 自 禁 地 (0,3)(2,2)G3,4)(6,2D， | oy | ope oy | بعرو‎ A 
扎 扎 实 实地 下 功夫 (0,4)G3,2)(42)53) |  ， | Ea 
领导 人 民 建 立新 中 国 aed | | 4 
(0,3)(2,2)(3,2)(4,2)(5,2)(6,3) | 








)١(‏ النماذج اللغوية في هذا الجدول والجداول الشبيهة في هذا الباب للتمثيل على ظاهرة 
تنفرد بها اللغة الصينية تتمثل في عدم وجود فاصل بين حدود الكلمات في النصوص 
التحريرية» وتحديد هذا الفاصل يقوم به العقل البشري بطريقة منطقية تعتمد على 
السياق وتصاحُب الرموز الصينية. أما بالنسبة إلى الآلة فالأمر يحتاج إلى طرق 
استدلالية تمد مقوماتها من الأداء البشري» إلى جانب الدراسات الإحصائية لمعدلات 
تصاحب الرموز ونسب تكرارها. إلا أن الأمر لم يستقر عند هذا الحد؛ حيث: ظهرت 
حالات اللبس في وضع حدود للكلمات آليّاء الأمر الذي استدعى وجود مثل تلك 
الدراسات التي ينفرد بها هذا الفصلء التي حققت نجاحًا كبيرا على المستوى التطبيقي. 
“sol af,‏ علماء الاغويات الحاسوبية باللغة الصيدية هذه القضية بمثاية عفق الزجاجة 
في سبيل خروج اللغة الصينية التحريرية إلى مستويات المعالجة الآليةء ونود الإشارة 
إلى أن ما توصل إليه الصينيون من حلولء من الممكن ا يتشد يد في وطيع حافك 
لمشكلات اللغة العربية في التشكيل الآلي للكلمات الذي بُعتبر أيضًا غنق الزجاجة أمام 
اللغة العربية في مجال المعالجة الآلية. (المترجم) 
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青年 突击 队长 生 龙 活 虎 
(0,5)(4,2)(5,2)(6,4) 





全 民 所 有 制 表演 艺术 团体 
(0,5)(4,2)(5,2)(6,2)(7,3)9,2) 
合法 政党 参与 国家 政治 生活 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2)(6,2)(7,2)(8,2) 
(9,2)(10,2) 








鸟 效 别克 斯 坦 共 和 国外 交 部 
(0,9)(8,2)(9,2)(11,2) 
提高 人 民生 活水 平息 息 相关 
(0,2)(1,2)(2,4)(5,2)(6,2)(7,2)(8,2)(9,2)(10,4) 





Vays 








or 
%۱ 











YYYAAA 





وتشير نتيجة الإحصاء إلى أن النسبة النوعية والنسبة العددية 
للسلاسل ذات الطول ٤ oY‏ رموز قد وصلت إلى %۷۸,۸ AAI, TO g‏ 
على ald Lee cll‏ بما لا يدع مجالا للشك أن هذين الطولين يمثلان 
الطول الأكبر لسلاسل الكلمات المتداخلة -Reorpus 3:3 Jals‏ وإذا قمنا 
بجمع النسب الخاصة بالسلاسل ذات الطول ١٤٤ء٥٠‏ معا سنجد أن النسبة 
النوعية والعددية لهذه السلاسل مجتمعة هي ete % 949,19 5 WIV, IA‏ 
التوالي. ومن الواضح أن هذه الأطوال الأربعة للسلاسل الكلامية ينبغي أن 
تصبح محل اهتمام العلماء والباحثين. 


:Reorpus توزيع طول محور التداخل في ذخيرة‎ )١( 
أظهرت نتيجة الإحصاء أن العناصر المتداخلة؛ التي تتجاور حدودها‎ 


في سلاسل التداخل لا يتعدى طول تداخلها أكثر من رمز واحد (وصلت 
النسبة النوعية لهذا الطول 935,51 والنسبة العددية له Sg (WA‏ 
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إلى عدم وجود عناصر متداخلة يصل طولها إلى ٤‏ رموز على الإطلاق. 


(۳) توزيع طول السلاسل ذات الطول الأكبر في الذخيرة: 


(1-5): توزيع أطوال السلاسل ذات الطول الأكبر في الذخيرة 
العدد النسبة 







جدول 


























ao طول‎ 
أمثلة واقعة‎ 
3 التداخل‎ 
比如 如 何 (0,2)(1,2)(2,2)， 
%44,4 | FT VoAY | %44,9 | ۹1 \ 
弄虚作假 发 (0,4)(3,2) 
| =| = T 
民族 资本 家 (0,4)Q2,3)， | 。 
,A ؟ه؟١‎ Meith YYY Y 
留洋 博士 生 (0,2)(1,3)(2,3) 
| 
犹如 箭在弦上 
(0,2)(1,4)(2,4), PLT RE | A. fY Asse ١ Y 
命 分 子 (0,5)(2,5) 
hs | TIPTI | for الإجمالي أ‎ 
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جدول :)١-5(‏ توزيع طول السلاسل ذات الطول الأكبر في التداخل 
عدد سلاسل 







أمثلة واقعية 





表现 在 (0,2)(1,2)， 留 学 生 
会 (0,3)(1,3)， 国 民 经 济 基 
础 (0,4)(2,4) 
任何 时 候 (0,2)(1,2)(2,2)， 
革命 根据 地 (0,2)(1,2)(1,3) 
中 国营 养 协 会 
(0,2)(1,2)(2,3)(4,2)， 我 国 
民族 资本 主义 


(0,2)(1,2)(2,4)(4,4) 
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野外 科学 工作 
(0,2)(1,2)(2,2)(3,2)(4,2)， 逐 
出 世界 杯赛 


(0,2)(1,2)Q,3)(4,2)(5,2) + 


1000 


%oYY4 
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在 野生 动 植物 资源 

(0,2)(1,2)(2,2)(3,3)(5,2)(6,2) | 

进行 经 常 性 爱国 主义 教育 

(0,2)(1,2)(2,3)(4,2)(5,4)(8,2) 
(9,2) 
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%۰,۲ 


VEO 


YYo 





按时 运 抵 交割 地 上 海 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 
(6,2)(7,2) 
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| 城乡 居民 生活 水 平稳 固 ”| 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 
(6,2)(7,2)(8,2) 


9% 





个 国人 民生 活水 平和 美化 
(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 
|___(6,2)(7,2)(8,2)(9,2) 
合法 政党 参与 国家 政治 生 
活 


(0,2)(1,2)(2,2)(3,2)(4,2)(5,2) 
(6,2)(7,2)(8,2)(9,2)(10,2) | 
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وقد أظهرت نتيجة الإحصاء أن السلاسل ذات الطول ۲ء ۳ رمزا 
تحتل النسبة الأكبرء وأن النسبة النوعية لها تصل إلى 9650,05: والنسبة 
العددية لها تصل إلى 90917,77. وأن أطول سلسلة قم مشاهدتها داخل 
الذخيرة التي يصل حجمها إلى مائتي مليون كلمة كانت١١‏ رمزا ولم تظهر 
إلامرة واحدة فقط. 2 
وقد أظهر مستوى أعمق من استقراء الذخيرة أن النوع الواحد من 
السلاسل قد يحتوي تكوينات داخلية مختلفة من حيث التركيب. ومن الواضح 
أن اختلاف التركيب الداخلي للسلاسل الرمزية ذات الطول الأكبر يؤدي إلى 
اختلاف استراتيجية التمييز. على سبيل المثشالء السلسلتان ">الا] 8" 
inj ga aly Jsb Lal REEN‏ رموز صينية» إلا أن الأولى بها 
محورين للتداخل طول كل منهما رمزين وهما على التوالي 重工业"‏ 
و" الا7" أما في الثانية فنجد أن بها محور تداخل يصل طوله إلى ثلاثة 
رموز حيث يُولّد هذا المحور بالتالي الكلمات ثنائية الرمز "۸87 و "غغ1 
و"ت*رت" على التوالي» وعلى هذا الأساس نجد أن طول محور التداخل بهذه 
الكلمات يصل إلى رمز واحد. 


aaa 


وهناك تراكيب معينة في سلاسل التداخل من الممكن الحصول على 
نتيجة جيدة في تمييز كلماتها إذا تم الاعتماد على الأنواع النحوية للكلمسات؛ 
ولكن استخدام هذه الطريقة في معالجة تراكيب أخرى لا يضمن الحصول 
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على نتائج مرضية. وقد قام سوين ماو سونغ بتقسيم السلاسل ذات طول 
التداخل الأكبر من حيث التركيب الداخلي لها إلى نوعين هما سلاسل ذات 
تركيب كبيرء وسلاسل ذات تركيب دقيق» هذا بالإضافة إلى أنه قدم وسيلة 
لوصف هذين النوعين والنتائج الإحصائية الخاصة بكل منهما كما يلي: 


)١(‏ طرق التعبير عن أنواع التراكيب الكبرى للسلاسل والنتائج الإحصائية 

لتقسيماتها: 

نظرا إلى أن العناصر المتداخلة هي الوحدات الأساسية التي تتكون 
منها سلاسل التداخل» فإنه يمكن إجراء عملية تقسيم الكلمات داخل سلسلة 
الرموز المتداخلة 5 وفقًا لتلك العناصر. وبصورة أكثر تفصيلاً يعني ذلك أن 
كل زوج من الأرقام داخل القوسين في الجدول السابق يشير الرقم الأول 
منهما إلى بداية التمييزء في حين أن الرقم الثاني يشير إلى طول سلملة 
التمييز داخل سلسلة التداخل 8. على سبيل المشال: سلسلة التداخل 
"ا ' تم تسجيل معلومات التركيب الأكبر لها على أنه (١)؛‏ أي أن 
بداية التمييز تبدا من الرمز الذي يحمل الرتبة )+( Jala‏ السلسلة وهو الرمز 
"5" وطول الكلمة التي يتم تمييزها هي ثلاث رتب بدءًا من ABM‏ )+( وهي 
الرموز (لا7-) وبذلك تكون الكلمة التي تم تمييزها هي ) (重工 业‏ 
PALM Cle ical!‏ و(١١۳)؛‏ أي أن بداية التمييز fas‏ من الرمز الذي يحمل 
الرتبة )١(‏ داخل السلسلة وهو الرمز "1" وطول الكلمة التي يتم تمييزها هي 
ثلاث رتب بدءًا من الرتبة )١(‏ وهي الرموز (الا7) وبذلك تكون الكلمة 
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التي تم تمييزها هي (×الا1) "مناطق الصناعة"؛ والسلسلة "٣غ7‏ تم 
تسجيل معلومات التركيب الأكبر لها على AYY AYA) (Ye) al‏ 

وعند تصنيف إجمالي السلاسل ذات التركيب الأكبر التي احتوتها 
ذخيرة 5نام:مع1؛ التي وصل عددها إلى ۲۳۳١۸۸۸‏ سلسلة تم الحصول 
على عبد 7١7‏ تضنيفا. وفيما يلي يعرض الجدول: 8-5 معلومات عن 
التركيب الأكبر لعدد ؟١‏ تصنيفا منها؛ حيث يمثل هذا العدد أهم التصنيفات 
التي تم التوصل إليها. وتشير الأرقام الإحصائية في هذا الجدول إلى أن 
توزيع التركيب الأكبر للسلاسل مُركز بدرجة كبيرة؛ حيث تمشل معلومات 
(Kee) aS sil‏ و(١١۲)‏ بالإضافة إلى (١٠5)؛‏ 5 huai (YY) g (Ved)‏ 
التواجد الأكبر من بين ال ۷٠١‏ سلسلة؛ حيث يحتوي كل سجل في الجدول 
aal‏ هذه العناصر على أقل تقديرء وقد وصل إجمالي النسب النوعية والعددية 
لهذه التراكيب إلى VEL‏ و١٥,٤%۸‏ على التوالي. 
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جدول (ه-28): توزيع التركيب الأكبر للسلاسل المتداخلة 

| 
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dale 
J 0 الى لل‎ 

































































































, FAR, ， 办 法 则 ， 
及 其 他 ， 于 今天 ， 把 风车 ,办 法 则 ,放风 | وين‎ oy wa 
第 ， 同 行业 ， 开 发 出 ， 转 化 为 
中 华人 民 ， 工 商行 政 ， 研 制 成 功 ， 主 要 re vy PE 
导 ， 产 品质 量 ， 今 天 下 午 ， 国 家 规定 (ver 
ATEN; RL RMA, BA Wy eV Wy 44 TAY (Ye (Ter) 
业 ， 发 电机 组 ， 合 格 证 书 ， 政 治 局 面 
文化 工作 者 ， 借 方 生 产 力 ， 上 报国 务 院 ， hae a aie pest 
进行 规范 化 ， 参 加 座谈 会 
国外 交 部 ， 种 子 公司 ， 促 进出 口 ， 上 天 安 ا‎ aa ae | SSÊ 
T RESE, SEZA, MEBE 
国内 外 贸易 ， 为 主要 目标 ， 落 实在 行动 ， pe — PEP (2,1) (2,0) 
展现 在 世人 ， 工 作 主要 是 | | ' 2,3) 2,2) 
AMETE, RARER ELLIE, %1,4 %1,۹ VAS (3,0) (2,3)(2,2) 
大 部 分 地 区 ， 进 一 步调 整 
适应 市 场 经 济 ， 严 重 刑事 犯罪 ， 中 国有 色 | 。 o% ，AA er ee 1 Ee) 
金属 电子 集团 公司 0) 

7 外 加 工装 配 ， 集 体 统一 ار‎ 
体高 产品 质量 ， 对 外 加 工装 配 ， Z %s,Yo - WY o (N(Y) 
经 营 ， 专 职 功 作 人 员 ， 内 部 分 配制 度 te) 
社会 主要 理论 ， 古 典 文学 名 著 ， 出 租 汽车 Gi Hh de aa ast (Née) 
行业 ， 经 济 作物 种 植 ， 举 足 轻 重地 位 o (t) 
前 所 未 有 的 ， 高 尔 夫 球场 ， 乡 镇 企业 已 ， PEPR 96 55 م‎ 

别开生面 的 ， 社 会 保险 局 | 
市 场 经 济 体制 ， 企 业 集团 公司 ， 自 成 一 家 eei ا‎ (E) 
ZH, LKR, RET 
%Y,Yo %oY， TAY أخرى‎ 

















423 


(۲) طرق التعبير عن أنواع التراكيب الدقيقة للسلاسل والنتائج الإحصائية لتقسيماتها: 

يُقصد بالتراكيب الدقيقة داخل سلسلة الرموز كل من موضع الكلمسات 
المحتواة داخل السلسلة وطولها (بغض النظر عن كونها تمثل عناصر متداخلة 
أم لا) (بما في ذلك الكلمات التي طولها رمز واحد) على سبيل المثال: 

FA سلسلة التداخل:‎ 
重工 业 区 

TAKA) (ce) 6(Vee) أنواع التراكيب الدقيقة التي تحتويها السلسلة:‎ 
i (16) (YY) (Y) 6(\«¥) ‘(Ye') (Yà) 

سلسلة التداخل: 

棉花 生产 

»)١2١( (Tee) (Yee) ALLN أنواع التراكيب الدقيقة التي تحتويها‎ 
.)١ Y) 6(¥<¥) cc) (Y3) 

ومن هنا نلاحظ أن التركيب الأكبر الواحد من شأنه أن يحتوي عددا 
من التراكيب الدقيقة. وبالنسبة إلى أبسط ترکیبین کبیرین (۲۰۰)» 5 (VEN)‏ 
والذين لهما معدل التكرار الأعلى في الذخيرة نجد أنهما يحتويان الحالات 
الثمانية التالية من التراكيب الدقيقة: 
Ved) (Yee) ~‏ 
YAY) -Y‏ 
Yo) 下‏ 
VYY ANY) -٤‏ 
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وعند تصنيف إجمالي السلاسل ذات التركيب الدقيق التي احتوتها 
(Reorpus 553‏ الك ول عا ان ۳۳4۸4 فة کے الول 
على عدد 11117 تصنيف؛ وفيما يلي يعرض الجدول 14-5 معلومات عن 
أهم التصنيفات التي تم التوصل إليها؛ SiS Cum‏ معلومات التركيب الدقيقة 
(TED) (ANa (Ye) »)٠٠١("‏ و(67٠)‏ بالإضافة إلى (Vo)‏ 
(Ve) 9 (YoY) 5 (VEN) g (YII (Ved) y (Ver) 5‏ نسبة التواجد 
الأكبر من بين ال ٠٠١‏ سلسلة؛ حيث يحتوي كل سجل في الجدول أحد هذه 
العناصر على أقل تقديرء وقد وصل إجمالي النسب النوعية والعددية لهذه 
التراكيب ,9011١,7‏ و9687,0 على التوالي9075. وتشير النتائج 
الإحصائية» على الرغم من أن توزيع التراكيب الدقيقة يبدو أنه أكثر تشتنا 
من التراكيب الكبيرة» فإننا إذا نظرنا إلى الأمر نظرة كلية سنجد أن هذا 
النوع من التراكيب ما زال متماسكا بدرجة كبيرة. 
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外 交 部 长 , 交 啊 乐团 ,青年 人 

才 , 生 活 费 用 ,所 在 地 区 ,解放 

军队 ,时 装 表演 ,无 线 电 厂 , 消 
防 队员 ,受灾 面积 





للل 
Yo) (Ne‏ 
ec‏ 0 ل 


1۳ 





大 会 堂 会 见 , 百 分 之 一 点 , 充 

分 说 明了 ,开发 生产 出 ,地 表 

现 出 来 ,近年 来 由 于 ,生活 水 
平和 ,于 今年 年 底 ， 


%1, 


EVs 
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解放 生产 力 ,革命 根据 地 , 服 

装 设计 师 ,出 生性 别 比 ,养老 

保险 费 ,极端 重要 性 ,管理 科 
学 化 ,发 展现 代 化 
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1۱ Ya) 
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自行 车 三 , 流 帘 犯 罪 ,一 方 
面 对 , 输 电线 路 ,小 学 校长 ,地 
下 水 位 ,带头 人 和 ,推动 力量 ， 
安全 部 门 ,面积 分 别 
代表 团团 长 ,解放 军官 兵 ,成 
年 人 犯罪 ,平方 米面 积 ,现代 
化 装备 ,地 下 党 组 织 , 所 有 制 


场 , 极 大 地 方便 了 ,没有 形成 
规模 ,外 汇 收 入 超过 ,内 部 分 
配方 式 总 结交 流 经 验 ,这 个 
中 心服 务 
在 座谈 会 ,有 生命 力 ,新 生长 
点 , 负 有 心 人 ,和 解放 军 , 对 开 
发 区 ,了 当事人 ,还 有 赖 于 ,本 
科学 家 ,一 代表 团 
中 国运 载 火 箭 , 现 有 生产 能 力 ， 
紧急 电话 会 议 ,中 国外 汇 制度 ， 
防止 水 土 流失 ,生产 假冒 伪劣， 
严重 水 土 流失 ,更 加 深入 人 心 ， 
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成 分 ,共产 党 内 部 
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成 人 教育 中 心 ,出 乎 意料 之 
外 ,拳头 产品 开发 ,登山 运动 
健将 ,不 过 如 此 而 已 ,增产 增 
收 节 支 有限 广播 电台 , 靳 泼 
大 雨 倾盆 ,四 面 八方 支援 
技 人 产 出 水 平 ,自力 更 生发 展 ， 
独立 自主 和 平 ,水 土 流失 重点 ， 
大 案 要 案情 况 ,主观 能 动作 用 ， 
广播 电台 联合 
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هذا وقد استخدم المرجع رقم[96] عدد ١١14‏ علامة من علامات 
التصنيف النحوي للكلمات لعمل تصنيف أكثر تفصيلاً للتراكيب الكبرى 
. والدقيقة؛ على سبيل المثال: سلسلة BR y E Saad‏ 
easa AEA‏ الأكبر هو :)٠07('‏ و(5١٠),‏ إلا أن الأنواع النحوية 
للعناصر المتداخلة في هذه السلاسل مختلفة» وهي على التوالي كما يلي (اسم 
+ اسم)ء و(فعل + اسم)ء و(فعل + فعل). 

وقد تم إضافة علامات التصنيف النحوي لعناصر التداخل في عدد ال 
۸ سلسلة كلامية التي تحتويها ذخيرة <Reorpus‏ ثم كسمت حسب 
التركيب الأكبر لها فكانت النتيجة الحصول على عدد ١5.548‏ نوعًا. 
ويعرض الجدول )٠١-0(‏ معلومات عن توزيع ال ٠١‏ نوعا الأساسية من 
هذه النصنيفات. وعند عمل تصنيف إضافي أكثر تفصيلاً للتراكيب الكبرى 
في السلاسل المتداخلة حسب معلومات التصنيف النحوي للكلمات الداخلة في 
التركيب» جد أن هناك تشتتا في التوزيع؛ حيث يحتوي كل صنف عدد ٠١‏ 
مثالأء وقد تجاوز إجمالي النسبة النوعية والعددية لل ٠١‏ نوعا التي ورڊت 
في البداية 0٠٥١‏ . 

وبالقاعدة نفسها من الممكن إضافة علامات توضح التصنيف المحتوي 
لكل كلمة من GLAS‏ سلاسل التداخل (بما في ذلك الكلمات التي تتكون من 
رمز واحد). على سبيل المثال» سلسلة التداخل AL"‏ "السلطة التشريعية" 
يتم وضع علامات التركيب الدقيق ومعلومات التصنيف النحوي لعناصرها 
كما يلي: "(١٠21()561()161()500(01١)+(8,78,78ارهرهة)"‏ وأصبحت 
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نتيجة ذلك تمييز عدد 123,356 كلمة من بين ال 233,888 سلسلة متداخلة في 
الذخيرة» بمعدل لا يزيد عن رمزين لكل كلمة من الكلمات التي تم 
استخراجها. وقد كان عدد الكلمات التي تم الحصول عليها من خلال هذه 
الطريقة لتحليل التركيب الدقيق لسلاسل التداخل كبيرًا لدرجة ضعف معها 
المغزى الحقيقي لهذه الطريقة في التقسيم. إلا أن نتائج الإحصاءات التي تم 
الحصول عليها قد كشفت عن درجة كبيرة من تعقد أنماط تراكيب سلاسل 
التداخل» ويعتبر ذلك من العوامل التي ينبغي أخذها بعين الاعتبار في أثناء 
وضع التصميم التفصيلي للطرق الحاسوبية في تمييز الكلمات داخل 
النصوص الصينية. 
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جدول :)٠١-5(‏ التراكيب الكبرى لسلاسل التداخل + 
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量 汽车 工业 ， 干部 | %oeYY | %o,YA | 12579 | (ngngng (2,1)(2,0) 
队伍 ,内 科学 会 ١ ) | ea) 
出 国门 ,等 同志 ， 
主 战场 ,上 台阶 从 | % 和 5594 | %eY | 11971 |  (vg,ng) 
政治 ,着 眼 ; 
基督 教徒 ,价值 观 
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市 场 ,侵犯 人 权 | 
Aaa ae | Guar WA evens) | (20) 
5 xk, WY, 0 %Y,4，| 9123 vg,vg,ng n SY 
资金 ,发 生 事 故 (2,2) 
需求 和 ,地 支持 ,人 . 
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卖 ,引起 重视 , 建 查 | %\Y4 | %Y \，| 4917 | (vgvgvg) 
， 装 修 
重 aT 
破旧 .和 亲切 ， 提高 | %yya | 96.,.4١ | 970 (vg,a) (2,1)(2,0) 
3 分 神秘 
ra md an % (۰,4١ (wga) 
%1,0 | Ys, 965 wg,a (2,1)(2,0) 
ae a . ; 
%01, | %1., | 142104 اخری‎ 
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يتضح مما سبق أن نتائج إزالة اللبس من سلاسل الكلمات المتداخلة ٠‏ 
التي تعتمد عليها أنظمة تمييز حدود الكلمات في اللغة الصينية لم تصل إلى 
الحد المرغوب فيه حتى الآن. والسبب الرئيس في ذلك هو أن العلماء لم 
يصلوا إلى سبر أغوار التشابك والتعقد الكامن في سلاسل الكلمات المتداخلة؛ 
بالإضافة إلى أن الطرق الحاسوبية في إزالة اللبس لم تصل إلى حد النضح 
بعد. إن الأعمال الاستقرائية التي قام بها فريقا البحث بكل من جامعتي شان 
شي وتشينغ خوا على ذخيرة كبيرة الحجم واستخدام بيانات إحصائية دقيقة 
كان من شأنه إزالة ساتر الغموض عن سلاسل الرموز المتداخلة:؛ وإتاحة 
الفرصة لتكوين رؤية مشتركة بين الباحثين حول تلك المشكلةء بالإضافة إلى 
إدراك طبيعة الاختلافات التركيبية فيما بين عناصرها. وهذه النتيجة ‏ 
ضرورية بدرجة كبيرة في التوصل إلى طرق حاسوبية في إزالة اللبس آلِيا 
- عن سلاسل الرموز عند تصميم تلك البرمجيات على أرض الواقع. وقد 
أظهرت الأعمال التي قام بها فريقا البحث أن برمجيات التمييز الآلي لحدود 
الكلمات القائمة على استقراء الذخائر المُكوّنة من سلاسل متداخلة كان من 
شأنها رفع دقة إزالة اللبس عن سلاسل الرموز المتداخلة بصورة ملموسة. 


430 


الفصل الثاني 
الدراسات المتعلقة بتمييز 
التعبيرات الاسمية الأساسية في اللغة الصينية 


إن تمييز التعبيرات الاسمية الأساسية من الدراسات المهمة في حقل 
معالجة اللغات الطبيعية واسترجاع المعلومات والترجمة الآلية وغيرها من 
المجالات. وقد قدم العالم تشيرش (ط»:داط©) تعريفا للتعبيرات الاسمية 
الأساسية في اللغة الإنجليزية (02561/8) بأنها "التعبيرات التي لا تتضمن 
تعبيرات اسمية أخرى بداخلها7”. وقد اعتبر تشيرش أن تمييز التعبيرات 
الاسمية الأساسية بمثابة الإشكالية التي تمكن من عملية ترميز الحدود اليمنى 
واليسرى لهذه التعبيرات» ويتم تحقيق ذلك من خلال نمط العنصر ا. وقد 
سبق أن قامت العالمة لي وين جييه من جامعة اللغة الصينية بهونج كونج 
باستخدام طول التعبيرة الاسمية ja da à (N-gram)‏ للحدود الكبرى 
للتعبيرات الاسمية. وقد أثبتت تجربتها أن الاكتفاء باستخدام طول التعبيرة 
الاسمية (0:همع-/3) الذي سبق تحديده وفقا للتصنيف النحوي للكلمات لا 
يكفي لعمل تمييز صحيح للتعبيرات الاسمية داخل النصوص الصينية. هذا 
وقد قام العالم جاو جوين!”! من جامعة تشينغ خوا بوضع تعريف للتعبيرات 
الاسمية الأساسية في اللغة الصينية» بالإضافة إلى أنه اعتمد على ذخيرة 
استرشادية تم ترميزها يدويًا في استخدام أنماط التراكيب النحوية مع التحرر 
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من السياق. إلا أن الدراسة أوضحت أن ترتيب الكلمات الذي يتطابق مع 
٠‏ أنماط التراكيب النحوية شرطا ضروريًا لتركيب التعبيرات الاسمية الأساسية 
وليس شرط اكتفاء يمكن الاستغناء به عن وجود باقى الشروط. فإذا تم 
الاعتماد على ترتيب الكلمات داخل النصوص في التعرّف على التعبييرات 
الاسمية الأساسية بصورة أساسية فسوف تكون نسبة الدقة بما لا يتعدى 
5 لذلك إذا أردنا عمل تمييز دقيق للتعبيرات الاسمية داخل 
النصوص» فسوف نحتاج إلى القواعد المتعاقة بالسياق في استخراج 
التعبيرات الاسمية الأساسية» التي يتم التوصل إليها من خلال التدريب 
والتجريب المستمرين. وقد أثبتت الدراسات أن الثم بين كل من ان اط 
التراكيب الأساسية للتعبيرات الاسمية 8/(»ووط وقواعد T‏ يل الخاصة 
بالسياق المحيط بالتعبيرة الاسمية 561/8هط من شأنه ان يُحقّق نسبة دقة في 
التمييز تصل إلى WA‏ و ,9687 في كل من الاختبارات المغلقة والحرة 
على التوالي. 
5 أولاً: تعريف التعبيرات الاسمية Â baseNP yulu)‏ اللغة الصينية 


كما سبق أن أشرنا قَدّمَ العالم تشيرش تعريفا للتعبيرات الاسمية 
الأساسية على أنها "التعبيرات التي لا تتضمن تعبيرات اسمية أخرى بداخلها“ 
بمعنى أن تركيبها الداخلي لا يمكن أن يحتوي تعبيرات اسمية أقل. ويبدو أن 
هذا التعريف لا يُمْكن أن يفى بأغراض معالجة اللغات الطبيعية باللغة 
الصينيةء على سبيل المثال تعبيرات اسمية؛ مثل: "84817575438" 'معالجة 
اللغات الطبيعية"» و"#8415:81 الإ" 'الأزمة الاقتصادية في آسيا”. 
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و" ۴812# "إصلاح النظام الاقتصادي“ وغير ذلك من التعبيرات 
الصينية التي لا يمكن أن ينطبق عليها شرط عدم إمكانية الاحتواء علسى 
تعبيرات اسمية أقل. ولكن من وجهة نظر استرجاع المعلومات والترجمة 
الآلية فإن هذه التعبيرات لها معاني خاصةء وتحتاج المعالجة على أنها 
بأكملها تنتمي إلى التعبيرات الاسمية. وقد سبق أن قدم جانغ وي قوه تقسيمًا 
EE‏ لأنواع المحَدّدَات التي تأتي في التعبيرات الاسمية هي: مُحذدات للتقييدء 
ومُحدّذات للوصف» ومُحذدات للتمييزا". وقد E‏ جاو جوين مجموعة من 
التعاريف الشكلية للتعبيرات الاسمية الأساسية (0356) وفقا لمُّحَدّدَات التقييد 
كما يلي: 
BaseNP 一 baseNP + baseNP‏ 
مصدر | BaseNP 一 baseNP + aul‏ 
a + baseNP‏ للتقييد ج- BaseNP‏ 
مصدر | اسم + مُحَدّد للتقييد +- BaseNP‏ 
مُحدّد التقييد -> صفة | تمييز | فعل | اسم | ظرف مكان | سلسلة من 
الحروف اللاتينية | عدد وكلمة كمية. ۰ 
ووفقا للتعريف السابق» يمكننا تقسيم التعبيرات الاسمية في اللغة 
الصينية إلى نوعين أساسيين هما: تعبيرات اسمية أساسية» وتعبيرات اسمية 
غير أساسيةء وفيما يلي نطرح بعض الأمثلة للشرح: 
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جدول (ه-١1):‏ أمثلة على التعبيرات الاسمية 
الأساسية والتعبيرات الاسمية غير الأساسية 





تبراك اسمية اساسية 
复杂 的 特征 ”这 人 台 计 算 机 ”很 大 成 就‏ 
对 于 形势 的 估计 明 朝 的 古董‏ 
万 职工 。 高 速 发 展 的 经 济 ” 研‏ 11 
究 与 发 展 ”老师 写 的 评语‏ 





تعبيرات اسمية غير أساسية 
甲 级 联赛 ”产品 结构 。 空中 走‏ 
J‏ 
下 岗 女 工 ”促销 手段 ”太空 旅行‏ 
自然 语言 处 理 。 企业 承包 合同‏ 
第 四 次 中 东 战 争‏ 














ثانيًا: أنماط التراكيب النحوية في التعبيرات الاسمية الأساسية 
انطلاقا من تعريف التعبيرات الاسمية: يمكننا أن نعرف أن تلك 
التعبيرات ينبغي أن تلتزم في تركيبها بقواعد نحوية مُحَدَّدَة وقد أطلق جاو 
جوين على تلك القواعد غير السياقية التي تبنى على أساس من التصنيف 
النحوي للكلمات والعلامات الخاصة بالتعبيرات اللغوية اسم أنماط التركينب 
النحوي (اختصار! الأنماط النحوية). إلا أن مزيدا من الدراسة قد أثبت أن 
ترتيب الكلمات بما يتوافق مع أنماط التركيب التحوي يُعَدُ رطا ضروريًا 
لتكوين التعبيرات الاسمية الأساسية ولكته ليس شرط اكقاء يمكن الاس تغاء 
بوجوده عن الشروط الأخرى. فالتعبيرة اللغوية عندما يتوافق ترتيب كلماتها 
مع نمط التركيب النحوي قد لا تكون تعبيرة اسمية أساسية» وينقسم هذا النوع 
من التعبيرات إلى الحالتين التاليتين: 
-١‏ عدم وضوح الحدود: ففي داخل الجملة توجد بعض الكلمات التي 
يتوافق ترتيبها داخل الجملة مع أحد أنماط التركيب النحوي. وهذه 
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الكلمات بهذا الترتيب قد ينطبق عليها شكل نحويء وقد لا ينطبق. 


انظر المثالين التاليين: 
مثال :١‏ 


技术 改造 是 国营 企业 走出 困境 的 出 路 o 

أزمتها" [تعبير ة اسمية [(baseNP) Au‏ 

مثال ۲: 

IBM 公 司 宣布 全 面 降低 个 人 电脑 的 销售 价格 o 

"أعلنت شركة آي بي إم 1834 عن تخفيض شامل في أسعار 
الحاسبات الشخصية" [تعبيرة غير اسمية]. 

ففي المثال الأول» نلاحظ التعبيرة ٠۷/28 ١/5٤۸"‏ وفي المثال 
الثاني التعبيرة "7۴/۷ ٠" #[/N‏ كل منهما يتطابق مع نمط التركيب 
النحوي للتعبيرات الاسمية الأساسية كما يلي: oj YI .BaseNP 一 V+N‏ 
الأولى تَعتبّر تعبيرة اسمية أساسية 0856105 أما الثانية فليست تعبيرة اسمية 
فحسب» وإنما لا تندرج تحت أي نمط نحوي معروف..وبعبارة أخرى فإن 
PAS a ASAI" Gals (ye DS‏ و "7۴" "أعلن" المتجاورتين في المثال الثاني 
تنتميان إلى المسند إليه والمسند على التوالي» ولا يمكن أن يضمهما حدود 
تركيبية لتعبيرة لغوية واحدة. 
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-١‏ اختلاف نوع التعبيرة اللغوية: قد يتواجد داخل الجملة تسلسل 
للكلمات يتوافق في ترتيبه مع ترتيب بعض الأبنية النحوية» إلا أن 
هذا التسلسل قد يكون تعبيرة اسمية أساسية؛ أو نوعًا آخر من 
التعبيرات اللغوية. انظر المثالين التاليين: 

| ‘te 
今年 /T 大 学 /N 毕 业 生 /的 /U 就 业 /V 形 式 /N 严 峻 /Ao 

'ظروف توظيف خريجي الجامعات هذا العام صعبة للغاية”. 

| :£ مثال‎ 
中 国 /N 人 民 /N/ 银 行 /N/ 今 天 /宣布 NV 降 低 N 利 率 /No 

أعلن st‏ الصيني اليوم عن تخفيض سعر الفائدة". 


ترتيب الكلمات في التعبيرتين "17/ةئ77"/الاة" 'ظروف توظيف؛ 


و" ' 'تخفيض سعر الفائدة" يتطابق مع أحد أنماط التعبيرات 
الاسمية الأساسية oY) BaseNP —V +N lait!) , a, ,baseNP‏ 
التعبيرة الأولى تعبيرة اسمية أساسية» أما الثانية فتعبيرة فعلية. 


وقد قم المرجع 2" تعريفا بالخطوتين اللتين اتبعهما العالم جاو جوين 


taal l‏ على التعبيرات الاسمية الأساسية كما يلي: 


(أ) من ذخيرة استرشادية سبق ترميز التعبيرات الاسمية الأساسية بها 
يدويًا ومن دون الاعتماد على السياق يتم استخراج أنماط التراكيب 
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النحوية للتعبيرات الاسمية» ومن النصوص موضع الدراسة 
التجريبية يتم ترشيح التعبيرات الاسمية 5356/0/7 التي يتطابق 
ترتيب الكلمات بها مع ما تم استخراجه من الذخيرة الاسترشادية؛ 
(ب) الاستعانة بمنهجية اكتساب طرق التحويل في استخراج التعبيرات 
الاسمية 0856/08 اعتماذا على القواعد المتعلقة بالسياق» ومن هنا 
يمكن الحكم أن تراكيب الكلمات التي تم ترشيحها هي تعبيرات 


ثالنًا: استخراج أنماط التركيب النحوي للتعبيرات الاسمية 
ينقسم استخراج أنماط التركيب النحوي إلى الخطوتين التاليتين: 
-١‏ إنشاء ذخيرة لغوية تحتوي ترميزا يدويًا للتعبيرات الاسمية 
الأساسية .baseNP‏ 
؟- عمل انتخاب مبدئي لأنماط التجمع بين كلمات الذخيرةء وإنشاء 
مجموعة من أنماط التركيب النحوي الأساسية وفقا للمعلومات 
الإحصائية الموجودة بالذخيرة اللغوية موضع الدراسة. 
)١‏ ترميز التعبيرات الاسمية الأساسية ۶١6ءهط‏ داخل الذخيرة 
وصل حجم الذخيرة اللغوية التي رمّزّها جاو جوين بطريقة يدوية إلى 
مائة ألف كلمة تم تمييز حدود كلماتها وإضافة رموز للتصنيف النحوي لها ' 
stil‏ وقد اعتمد على تعريف التعبيرات الاسمية الأساسية بالإضافة إلى 
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مجموعة المعايير التالية في عمل الترميز اليدوي للتعبيرات الاسمية الأساسية 
في تلك الذخيرة. وقد استبْعد من هذه القواعد لاستخراج التعبيرات الأسمية 
كلا من التراكيب التي تحتوي الأداة المساعدة "9" والتعبيرات التي تحتوي 
OF" Sin Cabell Cag >‏ و'جذ“ وم“ و"& للا" والفاصلة القصيرة 
PY‏ والكلمات المعبرة عن الزمن» والضمائرء وحروف الجرء بالإضافة 
إلى التراكيب المُكوّنة من الأعداد والكلمات الكميةء وما إلى ذلك. 
؟) الأنماط النحوية الأساسية للتعبيرات الاسمية للءوهط 

على أساس من التصنيف النحوي للكلمات والمعلومات الخاصة 
بمقاطعها الصوتية قام العالم جاو جوين باستخراج عدد 407 نمط تركيب 
نحوي لتعبيرة اسمية أساسية من الذخيرة التي سبق ترميزها يدويًا؛ التي 
اعتبرها بمثابة ذخيرة استرشاديةء ومن بين هذا العدد كان هناك عدد 4 
نمطا تكرر ظهوره داخل الذخيرة أكثر من خمس مرات» بما يُغطي نسبة 
5 من التعبيرات الاسمية الأساسية داخل الذخيرة. وقد Selb‏ جاو 
جوين على ال 54 نمطا المشار إليها اسم أنماط التركيب النحوي الأساسية. 
ey‏ الجدول التالي رقم ٠١-٠١‏ عرضنًا لأهم أنماط التركيب النحوي 
الأساسية» وتتكون العلامات ald Adal‏ كل تركيب نحوي من جزأين: 
الأول مكتوب بالحروف الإنجليزية الكبيرة للتعبير عن التصنيف النحوي 
للكلمةء والثاني عبارة عن رقم مُلاصق للحروف يشير إلى عدد الرموز 
(1) الفاصلة القصيرة إحدى علامات الترقيم التي تنفرد بها اللغة الصينية gcd pbb Ty‏ 

الفصل بين العناصر المتساوية في الرتبة داخل الجملة الصينية. (المترجم) 
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المكوانة للكلمة. على سبيل المثال: نمط التركيب اللحوي baseNP‏ الذي 


٠‏ صوتيين يشار إليها بالعلامة »)N62(‏ ومصندر مُكون من مقطعين صوتيين 


Yes oy 


Ia 


يحتوي العلامات NG2+VN7'‏ 


يشار إليهما بالعلامة (۷۸2). 


جدول :)١١-5(‏ الأنماط النحوية الأساسية للتعبيرات الاسمية ومكوناتها 



































a 
— NG2+NG2+VN2 ieee VN24NG2 
e NG2+VN2+NG2 عت‎ | VGN2+NG2 
ae ل ان‎ | | VG02+NG2 

| NG2+NG2+VN2+NG2 WEE | S2+NG2 

es NG2+NG2+VG02+NG2 | 01S7 病毒 XCH+NG2 








وقد أظهرت الإحصائيات أنه إذا تم ترميز جميع التراكيب التي تتطابق 
مع أنماط التركيب النحوي على أنها تعبيرات اسمية فسوف يكون معدل 
التغطية حوالي 638,5/,: إلا أن نسبة الدقة في التمييز لن تتعد 9058,5. 
وهذا يشير إلى أن الاكتفاء بالاعتماد على الأنماط المُتحرئرة من السياق لا 
يحل عملية الغموض في تمييز حدود التعبيرات الاسمية الأساسية وأنواع 
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رابعا: قواعد تمييز التعبيرات الاسمية اعتمادًا على السياق 

قَدّم العالم بريل (8:411) منهجية اكتساب طرق التحويل التي يتم دعمها 
من خلال الخطأ[101]» وقد سبق أن قام العالم رامشاو Suki: (Ramshaw)‏ 
هذه المنهجية في تمييز حدود التعبيرات اللغوية داخل النصوص 
الإنجليزية[102]. وقد استعان جاو جوين بمنهجية اكتساب طرق التحويل 
الخاصة ببريل في استخراج acl ail‏ التي تمکن من تمييز التعبيرات الاسمية 
الأساسية اعتمادًا على السياق. ويوضح الشكل التالي رقم ه-" طريقة 
الحساب التي يتم على أساسها تمييز التعبيرات الاسمية اعتمادًا على السياق: 
شكل (ه-"): رسم توضيحي يبين أنماط تمييز التعبيرات الاسمية baseNP‏ 

٠‏ اعتمادًا على قواعد التحويل 


SE 
83581412 للنعببرة الاسمية‎ 
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فالبداية تكون عن طريق عمل ترميز مبدئي للتعبيرات الاسمية 
. الموجودة في النص الذي يتم إدخالها وفقا لأنماط التركيب النحوي للتعبيرات 
الاسمية» ثم تقارن نتيجة الترميز ز المبدئى فع الفتيجة الضنحيحة؛ وذلك من 
أجل اكتشاف الأخطاء في عملية الترميز المبدئي. ومن هنا يتم الاستدلال 
على أنماط القواعد التحويلية المرتبطة بالسياق مقدمًا. وسسْتّخْدَم تلك القواعد 
في عمل تحويل لنتائج الترميز الحالية بأكملهاء بالإضافة إلى تخزين القواعد 
الجديدة التي تم التوصل إليها حسب أولوياتها ضمن مجموعة القواعد التي 
يق Sila Jus ska‏ اة بك اط من الا هس انف 
القواعد التحويلية المتعلقة بالسياق واحدة تلو الأخرى. خلاصة القول: إن 
منهجية التعلم التحويلي هذه تتكون من ثلاث وحدات: 


)١‏ وحدة الترميز المبدئي 

حيث يتم الاستعانة بالنماذج الأساسية في عمل ترميز TY‏ للتعبيرات 
الاسمية5لاءوهط » وفي هذه المرحلة يتم الحصول على مجموعة من 
التعبيرات الاسمية المٌرشحة. وتكون مراحل الترميز كما يلي: 

يتم تسجيل رتبة كل كلمة من محتوى النص على النمط URLS LS "i‏ 
لكل كلمة علامة التصنيف النحوي الخاصة بها على النمط ء وبذلك يتحول 
النص المدخل إلى سلسلة العلامات التالية: 


بر ؟ 7 Wi /Wty Wty Wy /Ej Wi [ty‏ 
إذا كانت مثل هذه القاعدة غير السياقية موجودة ضمن الأنماط 


الأساسية فإنه يتم التعامل مع سلسلة الكلمات على أنها تعبيرة اسمية على 
النمط التالي: 


t,...t ;,—> baseNP. 


بالإضافة إلى وضع ترميز 3 ‘ لعناصر Ww, /t;..W; 11; ål Lal lt‏ 
على أنها تعبيرة اسمية 8561/8ط. على سبيل المثال: 


国 !INF 学 者 ING 提 出 VGN 一 /MX 种 IQN | 


Eo 
概率 ING 标 引 NN 方 法 ING。/。 
人 站 


| 
Eee 


.ففي المثال السابق» نجد أن الخطوط الأفقية ee‏ 
إلى ست سلاسل لتعبيرات اسمية baseNP‏ منتخيةء ولم د يستقر منها بشكل 
نهائي إلا على التعبيرتين الموضحتين في المثال. 
¥( نماذج قواعد التحويل 

US‏ نموذج من نماذج قواعد التحويل يتكون من عنصرين رئيسين: 
أحدهما يختص بخطوات التحويلء والآخر يختص بتحديد نقطة البداية. 
فبالنسبة إلى خطوات التحويل يتم من خلالها تحديث نتيجة الترميز التي تمت 
على النص سابقا. إن خطوات الترميز في هذه المرحلة ت تهتم بالنظر في ثلاثة 
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عناصرء أولها علامات الترميز التي تم وضعها للتعبيرات الاسمية المرشحة 
في الخطوة السابقة» أما ثانيها وثالثها فيختص بتأكيد الرموز المستخدمة أو 
رفضها؛ وذلك وفقَا للخطوات التفصيلية التالية: 
(أ) خطوة التحويل الأولى: وضع علامة قبول أمام علامات الترميز 
الُرشحة لسلسلة الكلمات LW‏ 


(ب) خطوة التحويل الثانية: وضع علامة رفض 3 علامات الترميز 
المُرشحة لسلسلة الكلمات LW‏ 

(ج) خطوة التحويل الثالثة: رفض علامة القبول لسلسلة الكلمات .W‏ 

(د) خطوة التحويل الرابعة: قبول علامة الرفض لسلسلة الكلمات .W‏ 

وتتوقف شروط تنشيط قواعد التحويل على الكلمتين السابقتين للسلسلة 
الكلامية بالإضافة إلى الكلمة اللاحقة لها. وهذه الكلمات المجاورة للسلسلة يتم 
النظر إلى تصنيفها النحوي وحقلها الدلالي وعدد مقاطعها الصوتية وما إلى 
ذلك من الخصائص؛ وفي الوقت نفسه يتم النظر بعين الاعتبار إلى نمط 
التصنيف الذي تنتمي إليه سلسلة الكلمات موضع المعالجة. ولمزيد من 
التفصيل نورد فيما يلي عدد ال٠۲‏ شرطا المستخدمة في تنشيط قواعد 
التحويل: 
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; POS(p_,)=t 
; POS(p,)=1 
;POS(p_,)=t 
; SENSE( p_,)=s 

, SENSE(P) 

,SENSE (P-2 )=s 
SYL p) =x 

, POS(p_,)=1-AND.POS(p,) =1, 

, POS(p.2)=1,AND.POS(p..) = 
POS(p.,)=t,.AND.SENSE(p_,)=s, 

, SP(W)=m.AND.POS(p_,)=t 

SP(W) =m.AND.POS(p,)=t 

SP(W) = m.AND.POS(p,)=t‏ و 

POS(p.,)=t,.AND.POS(BEGIN(W))=1,; 

POS (p,)=t,AND.POS(END(W)) = t, 
, SENSE (p.) = 5, AND.SENSE(BEGIN(W)) = s, 

POS(p- 1) = t.AND.SENSE( p_,) = s,.AND. 

, SENSE(BEGINW)) = s, 

, SENSE(p_,) = s, AND.SENSE(END(W)) = 5, 
‘POS (p_,) =t.AND.SENSE( p_,) = s,.AND. 
, SENSE(END(W)) = s, 

, SENSE( p,) = s,. AND.SENSE(END(W)) = s, 






















حيث تشير 17 فيما سبق إلى سلسلة الكلمات المٌرشحة؛ التي تخضع 
لعملية المعالجة» أما -7/:7-7 فتشير كل منها على التوالي إلى الكلمة 
4 تسبق السلسلة بمكانين» والكلمة التي تسبق السلسلة بمكان واحدء والكلمة 
التي تلي السلسلة الكلامية wa SYL(p) , SENSE(p),POS(p) Lh iW‏ 
i 3‏ 
النحوي» والحقل الدلاليء وعدد المقاطع الصوتية على التواليء هذا بالإضافة 
إلى أنه يتم استخدام رموز الحقل الدلالي وفقا للتصنيفات الدلالية الكبرى 
والوسطى والصغرى حسب ما ورد في معجم ((غابة المترادفات)('. 
أما(52017 فتشير إلى نمط التركيب النحوي الذي تنتمي إليه السلسة موضع 
المعالجةء وتشير كل من (281017/017, (20/207 إلى الكلمة الأولى 
والكلمة الأخيرة في السلسلة على التوالي. وبالإضافة إلى ذلكء فإنه إذا كانت 
الكلمة التي في الموضع ‏ قد انضمت لتعبيرة لغوية اسمية فيتم ترميزها 
على النمط _POS(p)= BN‏ 
وعلينا ملاحظة أن IS‏ من الحروف و ٠×‏ و3 في شروط تنشيط 
قواعد التحويل السابقة يشير إلى التصذيف النحوي للكلمةء-وعدد المقاطع 
الصوتيةء ورمز الحقل الدلالي على التواليء ويتم وضع تلك القيم من خلال 
التدريب العملي على نصوص فعلية. لذلك» فإنه قبل إقرار تحديد هذه 
المؤلفات المعجمية بشنغهاي» وكان الهدف الأساسي من تأليف هذا المعجم جمع أكبر 
عدد من الكلمات المترادفة وإتاحتها للعاملين في مجال الترجمة والتأليف باللغة 
الصينية. (المترجم) 
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المتغيرات تظل قواعد التحويل قيد انتظار التقييم. وتَحدّد مجموعة قواعد 
التحويل تلك مجموعة الاحتمالات الممكنة الخاصة بعمليات التحويل» وهذا ما 
يُطلق عليه فراغ قواعد التحويل. والهدف من تعلم عمليات التحويل واكتسابها 
هو تحديد قائمة المتغيرات الخاصة بأنماط القواعد النحوية وذلك من خلال 
ذخيرة تم ترميزها اعتمادًا على العنصر البشريء الأمر الذي يُحَول تلك 
القائمة إلى قواعد تحويلية يمكن تنفيذها من خلال برمجية حاسوبية. ولذلك» 
فمن الضروري هنا أن نميّز بين مفهومين مختلفين» الأول يخص نماذج 
القواعد المستخدمة في التحويل» والثاني هو قواعد التحويل نفسها. 


") مُتواليات!') التقييم 

حتى يمكن اختيار قواعد التحويل الأفضل بالنسبة إلى نتيجة ترميز 
الذخيرة التجريبيةء تكون هناك حاجة إلى وضع متوالية للتقييم يُمُكنها وضع 
درجات تقييمية لقواعد التحويل التي يتم التوصل إليها. فعلى فرض استخدام 
قاعدة تحويل ما يُرْمَر لها بالرمز” في النص الذي يخضع للمعالجة حالياء 
فإذا كانت نسبة دقة التمييز التي تم التوصل إليها من تطبيق هذه القاعدة على 
نص آخر أعلى ما يمكنء فإن هذه القاعدة تأخذ درجة تقييم مرتفعة» بالإضافة 


)1( استخدمت كلمة ” متوالية" هنا للإشارة إلى ما يقابل كلمة function‏ في اللغة 
الإنجليزيةء وتي في علوم الحاسب حزامّة من الأوامر تكتب بلغة برمجة وتُذمج مع 
برنامج متكامل للقيام بمهمة معينة» وعند استدعائها يتم تتفيذ محتواها من أسطر 
البرمجة بشكل تراتبي لتنفيذ المهمة التي صمّمَت من أجلهاء وقد ارتضيت هذه الترجمة 
بدلا من كلمة aby‏ » أو "روتين فرعي " المستخدمتين في هذا المجال»› » أو "Is‏ 
المُستَخدَمة في مجال الهندسة التحليلية. (المترجم) 
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إلى ترقيتها لتنضم إلى القواعد المستخدمة في التحويل حاليًا. وبعبارة أخرى؛ 
إذا أدت قاعدة التحويل ” إلى تعديل علامات الرفض الموجودة في النص 
بعدد مرات قبول يصل إلى القيمة (2©»؛ وفي الوقت نفسه أَدّت إلى تعديل 
علامات القبول الموجودة في النص بعدد مرات رفض تصل إلى القيمة (7)ء 
فإن متوالية التقييم ستعطي درجة تقييم لتلك القاعدة من خلال المعادلة التالية: 
معادلة (ه-١)‏ 

خامسًا: طرق حساب القواعد الخاصة بتعلم الترميز 

الغرض من التعرف على العمليات الحاسوبية الخاصة بتعلّم الترميز 
هو محاولة عمل توليد آلي لمجموعة القواعد السياقية التي يتم تنفيذها 
بالترتيب وذلك عن طريق الاستعانة بفراغ قواعد التحويل التي سبق التوصل 
إليها. ففي كل خطوة من خطوات العملية الحسابية» تقوم آلية التعلم 
باستعراض جميع نماذج التحويل التي تنطبق عليها شروط التنشيط» وتقوم 
بمسح نتيجة الترميز التي تم التوصل إليها واستبدالها بمحصلة الترميز 
الأخيرة» مع الاستعانة بمتوالية التقييم لوضع درجة لهاء واعتبار القاعدة 
التحويلية التي تحرز أعلى النتائج هي القاعدة التي يتم التوصل إليها من 
خلال تلك الدورةء هذا بالإضافة إلى فهْرّستها حسب أولوية التوصل إليهما 
ضمن مجموعة القواعد المُحققة (القاعدة التي يتم التوصل إليها من خلال 
الدورة الأولي توضع في مقدمة المجموعة»ء والقاعدة التي يتم التوصل إليها 
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من خلال الدورة الثانية توضع في المركز الثاني وهكذا). وبعد ذلك» تحل 
| هذه القاعدة الجديدة محل علامات الترميز الموجودة في النص موضع 
Me pd ly A‏ 
وتستمر عملية التعلم على هذا المنوالء إلى أن تعجز الدرجات التي Liis‏ 
القواعد التحويلية عن الوصول إلى قيمة معينة يتم تحديدها سابقا. وكما ذكر 
آنفا تقرس القواعد التحويلية التي يتم التوصل إليها من خلال عملية التعلم 

حسب أولوية التوصل إليها؛ حيث تتصدر القواعد التي د يتم التوصل إليها 
مقدمًا القواعد التي تتحقق في المراحل التالية. فعند عمل .ترميز للتعبيرات 
الاسمية داخل نص من النصوصء ينبغي البدء باستخدام أنماط ترميز مبدئية 
لوضع رموز للنص بشكل مبدئيء ثم يتم استبدال تلك الرموزء واحدا تلو 
الآخرء بالقاعدة النهائية من مجموعة القواعد التحويلية 

ويمكننا تلخيص طرق حساب عملية تعلم القواعد التحويلية ية كما يلئ: 

على فرض أن © ذخيرة لغوية لم يتم عمل ترميز للتعبيرات الاسمية 
baseNP‏ وأن © ذخيرة تم ترميز التعبيرات الاسمية بهاء وأن 75 هي 
مجنوعة القواعد التحويلية مُرَتبةء وأن مجموعة القواعد التحويلية تكون 
فارغة في البداية أي أن: 

TS =0 

أولاً: يتم تطبيق نماذج الأبنية النَدُوية الأساسية للتعبيرات الاسمية في 
عمل ترميز أوّلي للذخيرة ©؛ ومن ثم الحصول على نص مُرمّز يشار إليه 
بالرمز .٩"‏ 
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ثانيًا: تكرار الخطوات التالية إلى أن يُصبح من غير الممكن العثور 
على قواعد تحويلية ”: وبحيث يمكن أن تكون FO>T‏ (حيث تشير T‏ 
إلى قيمة محددة سابقا). 
الدورة رقم (i =01,2,... Cus) i‏ 
)١‏ مقارنة Canal «Ca an CN‏ عن حالات الترميز الخاطئة "ا 
في i . .C‏ 
؟) التحرك us‏ من "£ في البحث داخل فراغ قواعد التحويل عن 
أفضل قاعدة للتحويل '7: وإعطاء ''” أعلى درجة تقييم كما يلي: 
r' = arg max F (r),‏ 
)٣‏ إضافة ""” إلى ذيل القائمة 75ء بالإضافة إلى إحلال ٠"‏ مكان "° 
` والحصول بذلك على JCM‏ 
سادستًا: نتيجة التجربة 
انقسمت التجربة إلى الأجزاء الثلاثة التالية: 
)١(‏ الحصول على نماذج التركيب النحوي للتعبيرات الاسمية من 
(۲) الاستعانة بالأخطاء في تشغيل طرق حساب عملية التعلم للحصول 
على القواعد التحويلية للتعبيرات الاسمية اعتمادًا على السياق. 
(۳) الجمع بين كل من نماذج التركيب النحوي والقواع د التحويلية 
السياقية في تمييز التعبيرات الاسمية داخل النص. 
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وقد سبق أن قدمنا نتيجة التجربة للجزء الأول» وكان ذلك في النقطة 
(ه-") من الفصل الحاليء وفيما يلي نقدم نتيجة نتيجة التجربة للجزء الثاني والثالث. 
أولاً: تجربة الحصول على قواعد التحويل السياقية 

2 

E A es‏ ا 
على القواعد التحور يلية؛ حيث تم الحصول على إجمال "8١‏ قاعدة تحويل من 
ذخيرة تعلم يصل حجمها إلى حوالي خمسين ألف كلمة مع جعل القيمة 
المبدئية المّحَتّدة سابقا 0 . وفيما يلي نورد عدد عشر قواعد تحويل هي 
الأكثر استخداما: 

-١‏ تحويل علامة الترميز المْرّشحة إلى علامة ترميز مؤكدة: 


when POS(p_,)=QN.AND.POS(P,) =. (\) 


مثال: 
زاحو / 5/7 الت 
承包 /VNN 合 同 /NG[。/。‏ 


"وفعت تلك الشركة في العام الحالي عقدين للمقاولات مع 
رجال أعمال أجانب". 
؟) تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
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when POS(p_,)=CM.AND.POS(P_,) = BN 
مثال:‎ 
ceecee 将 /P 个 /有 R 种 /QN[ 反 /8 坦克 /NG 火力 /NG] 和 /CMI[ 防 /H 坦 
克 /NG 障 碍 物 /NG] 密 切 /A 结 合 /VGN…… 


"... التأكيد على ضرورة الجمع بين قدرة الدبابات على 
المقاومة والدفاع...". 


۳) تحويل علامة الترميز المُرشحة إلى علامة ترميز مؤكدة: 
when POS(p_,) = “.AND.POS(P) =”‏ 
مثال: 


这 /R 种 /QN 语 法 /NG 已 经 四 成 为 /VGN 许多 /MG 立足 /VGO 于 / 
P"/"[ 复 杂 /A 特 征 /NG]"/ 的 /USDE"/"[ 合 一 /NG 运算 /VNN]"/" 的 / 
USDE[ 形 式 化 VNO 方 法 /NN] 的 /USDE 基 础 /NG。/。 


"أصبح هذا النوع من القواعد النحوية أساس المنهجية 
الصورية التي تعتمد عليها الكثير من طرق الحساب التي تستمد 
مقوماتها من الجمع بين الخصائص اللغوية المعقدة". 
؛) تحويل علامة الترميز المُرّشحة إلى علامة ترميز موكدة: 
when SENSE( p_,) = Ja02‏ 
مثال: 
这 /R 种 /QN 气 候 /NG 叫 做 /VGN/Ja02[ 热 带 /NG 雨 林 /NG 气 候 /‏ 


"هذا النوع من الطقس يُطلّق عليه اسم طقس هل؟. 
الاستوائي المُمطر...". ۰ 
©) تحويل علامة الترميز المرشحة إلى علامة ترميز مؤكدة: 
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when POS(p_,)= P.AND.POS(P,)=V 


在 /P[ 上 海 /NG 战役 /NG] 结 束 /VGO 后 /F，…… 
"بعد انتهاء معركة شنغهاي...'‎ 
تحويل علامة الترميز المٌرّشحة إلى علامة ترميز مؤكدة:‎ )* 


when SENSE( p_,)=M 


许多 /MG[ 无 愧 /VGO 企 业 /NG] 将 /D 转 产 /VGO，…… 
"العديد من المشروعات الخاسرة سوف تغير نشاطها...".‎ 
تحويل علامة الترميز المٌرشّحة إلى علامة ترميز مؤكدة:‎ (V 
when POS(p_,)=M-.AND.POS(P,)=U | 
مثال:‎ 


许多 /MG 地 方 /NG 分 布 /VN 着 /UT 茂密 /A 的 /USDE 热 带 /NG 雨 
PKING, eee | 


"العديد من المناطق مُعَرضة لأمطار استوائية...". 
(A‏ تحويل علامة الترميز المُرشحة إلى علامة ترميز مؤكدة: 
when SENSE( p) = Hc11.AND.SENSE(END(W)) = Dk14‏ 


مثال: 
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”两 /MJ 国 /NG 政府 /NG 今天/T 联 合 /D 发表/VGN/Hecl1 建 交 /V 
GO 公报 /NG/Dk14，…… 


'أصدرت حكومتا الدولتين اليوم إعلانا مشتركا بإقامة 
علاقات دبلوماسية...". 
4) تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
Dhen POS(p_,) = D.AND.POS(BEGIN(W )) = VGN‏ 
مثال: 
两 /MJ 国 /NG 政府 /NG 今天 /T 发 表 /VGN[ 建 交 /VGO 公 报 /NG]‏ 


"أصدرت حكومتا الدولتين اليوم إعلانا بإقامسة علاقات 
دبلوماسية...". 
)٠‏ تحويل علامة الترميز المُرّشحة إلى علامة ترميز مؤكدة: 
when SENSE( p_,) = LeO2.AND.POS(p,) =o‏ 
مثال: 
cease 组 成 /VGN/Le02[ 防 /H 步 兵 /NG 火力 /NG 配 系 /NG]。/。‏ 
"... تكوين نظام مُذْمَج لمقاومة نيران المشاة". 
من خلال الأمثلة السابقة» يمكننا أن نلاحظ مدى صحة الاتجاه إلى 
استنباط قواعد التحويل من خلال طريقة التعلم من الأخطاء. فلو نظرنا بشكل 
مستقل إلى إحدى القواعدء فمن المحتمل ألا تكون صحيحة بصورة كاملة 
(مثل: القاعدة الموضحة بالمثال رقم ١)؛‏ إن خطوات التحويل الخاصة بتلك 
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القاعدة لا يتم الاستعانة بها تماما في بيئة التنشيط المحيطة بها. إلا أن كل 
قاعدة يتم النظر إليها على أنها صحيحة من حيث قدرتها: على التطبيق 
والاستخدام» وأن نسبة الخطأ الضئيلة التي يمكن أن تنشأ من استخدام تلك 
القاعدة أو غيرها في الترميز يمكن تعويضها من خلال القواعد التالية لها 
(كما حدث في المثال رقم .)١‏ لذلك» فإن مجموعة القواعد بأكملها تكون 
مربب والقواعد التي ترذ في البداية تكون أكثر عمومية؛ أما تلك التي ترد في 
مؤخرة القائمة فتكون أكثر خصوصية. 
a‏ تجربة تمييز التعبيرات الاسمية baseNP‏ 
تتمثل الخطوات التي تتبعها برمجية تمييز التعبيرات 4.1 baseNP‏ 
فيما يلي: 
)١‏ الاعتماد على نماذج التراكيب النحوية الأساسية للتعبيرات الاسمية 
في عمل ترميز مبدئي للنص موضع الترميز. 
۲) عمل تحويل لنتيجة الترميز في المرحلة السابقة من خلال تطبيق 
القواعد التحويلية واحدة تلو الأخرى. 
علامتان أو أكثر أمام سلسلة الكلمات؛ مثل: 
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سلسلة الكلمات: 


wl hw lt, w, Ít Hj Ê; 1 ga 1 x 
| | 1 الذرميز رقم‎ 


个 个 2 ردم‎ japi 
ويتم الاحتفاظ بالترميز الأنسب وتّحذف العلامات الزائدة.‎ 


وحتى يمكن أن يتم عمل دراسة مقارنة على عمليات تمييز التعبيرات 
الاسمية sla ol cbaseNP‏ جوين بتقسيم التجربة إلى قسمين؛ حيث يختص 
القسم الأول بنماذج التراكيب النحوية الأساسية للتعبيرات الاسمية» ومن نتيجة 
الترميز في هذا القسم يمكننا أن نستنبط الخطوط الأساسية (6هفظ-0956) لعملية 
تمييز التعبيرات الاسمية 56118هط. ومن خلال القسم الأول يتم تنفيذ 
الخطوات "١١‏ من التجربة السابقة. أما القسم الثاني من التجربة فيجمع بين 
كل من نماذج التراكيب النحوية الأساسية للتعبيرات الاسمية والقواعد 
التحويلية السياقية» بمعنى تنفيذ خطوات التجربة السابقة ٠٠۲١‏ على التوالي. 

وتنقسم التجربتان بدورهما إلى جزأين» الأول هو الاختبار المغلق» 
والثاني هو الاختبار المفتوح» ويصل حجم النصوص التي يتم إدخالها في كل 
من التجربتين إلى عشرة آلاف كلمة. إلا أن النصوص الخاصة بالاختبار 
المغلق يتم اختيارها من ذخيرة التدريب» أما النتصوص الخاصة بالاختبار 
المفتوح فيتم اختيارها من نصوص خارج نطاق ذخيرة التدريب. 
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وعند اختبار مؤشر أت الكفاءة لبرمجية تمييز التعبيرات الاسمية 
Jl a baseNP‏ مؤشرين للقياس هما معدل الدقة م ومعدل التغطية eR‏ 
ويتم حسابهما من المعادلتين التاليتين: 


معدل الدقة: 
b‏ 
معادلة (ه-؟) 
معدل التغطية: 
c‏ 
معادلة (ه-؟) 


يدرف لشو © في المعادلتين إلى عدد التعبيرات الاسمية baseNP‏ 
التي ميزتها البرمجية بشكل صحيح في النص موضع المعالجة» وتشير ۵ إلى . 
إجمالي عدد سلاسل الكلمات التي تم الحكم أنها تعبيرات اسميةء cu‏ فتشير 
إلى عدد التعبيرات الاسمية الموجودة بالفعل داخل النص موضع المعالجة. 
ويشير الجدول ١7-5‏ إلى نتيجة اختبار التجربتين: | 
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جدول (ه-15١):‏ مقارنة بين الطريقتين المستخدمتين 
. في تمييز التعبيرات الاسمية 
1 






















الطريقة التي تعتمد على الجمع | 

الطريقة التى تستخدم النماذج ٠‏ بين النماذج الأساسية في 

الأساسية في التركيب النحوي | التركيب النحوي والقواعد 
نوع الاختبار التحويلية 

نسبة الدقة | نسبة التغطية | نسبة الدقة | نسبة التغطية 

لك 

%4,۲ %۹1,۱ Ayy, o %VY,4 الاختبار المغلق‎ 
000 %AYY | PVA, VY,Y الاختبار المفتوح‎ 











من خلال مقارنة نتيجة التجربتين السابقتين» يمكننا ملاحظة أن نتائج 
الطريقة المختلطة التي جمعت بين النماذج الأساسية في التركيب النحوي 
والقواعد التحويلية قد تفوقت بوضوح على طريقة النماذج الأساسية في 
التركيب النحوي. 
Uy Lady‏ نم جنا من كقيبة الفؤميق اندي أجريت على تسم 
الاختبار المفتوح (الأجزاء المكتوبة بالبنط السميك؛ التي أسفلها خط تشير إلى 
خطأ في الترميز): 








[干部 /NG 工作 /NG] 是 /VY 中 国人 民 解 放 军 /NG 依据 /P 中 国共 产 党 /NG 的 / 
USDE[ 干 部 /NG 路 线 /NG] 和 /CMI[ 政 策 /NG 管理 /VNN 军 官 ING] 和 /CM[ 文 职 /NG 
于 部 /NG] 的 /USDE 工 作 /NG。/。[ 机 构 /NG 干 部 /NG 工作 /NG]，/， 原 来 /D 是 /V 
Y[ 中 国人 民 解 放 军 /NG 建 设 /VNN] 的 /USDE[ 重 要 /A 内 容 /NG]。/。 根 据 /P1929 
年 /T[ 古 田 /NPL 会 议 /NG 决议 /NG] 的 /USDE 规 定 /NG，/，[ 工 农 /NG 红军 /NG] 的 | 
USDE[ 军 事 /NG 干部 /NG] 由 /P[ 军 事 /NG 系统 /NG] 管 理 /VNN，/， 其 /R[ 具 体 /A 
工作 /NG]，/， 由 /P[ 司 令 /NG 机 关 /NG] 的 /USDE[ 队 列 /NG 部 门 /NG] 和 /CM[ 政 治 
/NG 机 关 /NG] 的 /USDE[ 组 织 /NG 部 门 /NG] 负 责 /VGV，/，1973 年 /TT 以 后 /F，/， 
干部 /NG 的 /USDE 任 免 ;YVNN、/、 调 配 /VNN 由 /P 各 /R 级 /NG [军政 /NG 委员 会 /N 
G] 按 /P[ 任 免 /VNN 期 限 /NG] 讨 论 /VNN 决 定 /VGN，/， 有 的 /R 部 队 /NG 还 /D 在 / 
队列 /NG 和 /CM[ 组 织 /NG 部 门 /NG] 内 /F 成 立 VGN 了 /UT 干部 科 /NG。/。 
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الفصل الثالتٌ 
نماذج إزالة اللبس الدلالي للكلمات الصينية 
اعتمادًا على الفراغ الدلالي للكلمات داخل التركيب 


إن المقصود بإزالة اللبس الدلالي للكلمات (word sense‏ 
disambiguation)‏ معالجة الكلمات متعددة الدلالة ues‏ يتم وضع كود 
دلالي لها وفقًا للمحيط السياقي الذي ترد فيه. وهذا الكود الدلالي قد يكون 
عبارة عن الرقم الذي يشير إلى معنى تلك الكلمة داخل أحد المعاجم العامة؛ 
وقد يكون عبارة عن كود التصنيف الدلالي لتلك الكلمة داخل أحد المعاجم 
‘NA‏ أو الكلمة المقابلة لتلك الكلمة في معجم للترجمة؛ كما يمكن أن يكون 
شرحا لتلك الكلمة داخل أحد المعاجم المفهومية. وقد ساد لفترة طويلة اعتقاد 
أن موضوع إزالة اللبس الدلالي عن الكلمات هو أحد الموضوعات الصعبة 
في مجال معالجة اللغات الطبيعية. فقبل تسعينيات القرن الماضي كانت 
الدر اسات المتعلقة بإزالة اللبس الدلالي تعتمد على منهجيات الذكاء 
الاصطناعي بصورة أساسيةء وكانت الصعوبة في ذلك تكمن في حاجة هذه 
المنهجيات إلى العنصر البشري من أجل صياغة عدد هائل من قواعد إزالة 
اللبس» وسلبيات ذلك ليست ضئيلة. ليس فقط من حيث نسبة التغطية» بل إن 
هادر تلك المنهجيات كبير جدّاء وهذا ما أطلق عليه "عنق الزجاجة" في مجال 
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استخلاص المعارف من النصوص. وبعد تسعينيات القرن العشرين» دخلت 
الدراسات المتعلقة بإزالة اللبس الدلالي عن الكلمات عصرا جديدًا يتخذ من 
منهجية الذخائر اللغوية منطلقا أساسيًا؛ وذلك بسبب ظهور المعاجم الآلية 
والذخائر اللغوية هائلة الحجم. 

تعتمد منهجيات إزالة اللبس الدلالي عن الكلمات المُحتواة في معاجم 
إلكترونية بصورة كبيرة على النصوص الشارحة للكلمات داخل المعاجم 
العامة؛ حيث يتحقق غرض إزالة اللبس الدلالي لكلمة بمجرد حساب درجة 
تكرار النص الشارح لمعنى محدد من المعاني المتعددة لتلك الكلمة داخل 
النص موضع المعالجة؛ وذلك مثلما فعل العالمان ليسك ()ءه1) وويلكز 
(Wilks)‏ والذي قَدّم كل منهما منهجيته الخاصة لإزالة اللبس الدلالي 104.131 

إلا أنه عندما يكون النص الشارح قصيراء كأن يقتصر على سنرد 
الكلمة المضادة أو المترادفة مع الكلمة موضع التعامل» فمن الصعب العثشور 
على معلومات تكرارية لمثل هذا النص الشارح داخل النص؛ ومن ثم يؤثر 


ذلك في نتيجة إزالة اللبس. وهناك طرق أخرى تعتمد على إزالة اللبس من 


خلال استخدام معجم التصنيفات الدلالية. وفي هذا المجال تُعتبر الطريقة التي 
ce gl Ng) Suis SI aa, ll ga (Yarowsky) (Says st te‏ 
منهجيات إزالة اللبس الدلالي[105]. وقد اعتمدت تلك الطريقة عند حساب 
(salient words) YA jad A GLAS‏ داخل النص على توزيع 


متوسط عدد مرات ظهور الكلمة متعددة الدلالة على كل تصنيف دلالي مقابل ' 


لتلك الكلمةء الأمر الذي تسبب في وجود ضجيج إحصائي؛ فضلاً عن 


460 


محدودية المادة اللغوية المستخدمة في رصد الكلمات ذات البروز الدلالي؛: 
ومن نَم فقد كانت نسبة التغطية لهذه الطريقة محدودة جداء ٠‏ 


إن منهجية إزالة اللبس الدلالي اعتمادًا على ذخيرة لغوية؛ التي قدمها 
كل من يارووسكي (Bruce) a939 (Yarowsky)‏ و غير ھما[107,106] 
تعتمد بصورة كبيرة على الترميز الذي يتم من خلال العنصر البشري علئ 
ذخيرة تدريبيةء وهذا النوع من الترميز مُكلّف من حيث الوقت والمالء هذا 
بالإضافة إلى وجود مشكلة في النتائج الإحصائية تتمثل في خلخلة البيانات 
وعدم ترابطها؛ لذلك يسعى عدد من العلماء إلى بحث إمكانية التوصل إلى 
منهجيات لاستخراج المعلومات من النصوص اعتماذا على إزالة اللبس 
NY‏ غير (unsupervised) 4p sall‏ إلا أن هذه المنهجيات ما زالت تقف 
حتى اليوم عند حد تجارب على نطاق ضيق لا يتعدى بضع كلمات أو بضع 
عشر كلمة متعددة الدلالة. وقد طرحت لي جوان تزي من جامعة تشين خوا 
نموذجًا لإزالة اللبس الدلالي اعتمادًا على الفراغ الدلالي للكلمات داخل 
التركيب. ونظر! إلى أن كل مجموعة مترادفات في معجم (غابة المترادفات) 
يقابلها كود واحد يمثل كل حقل دلاليء هذا بالإضافة إلى أن المجموعة 
الواحدة من المترادفات تحتوي دائمًا عددًا قليلاً من الكلمات متعددة AW al‏ 
وكمية كبيرة من الكلمات أحادية الدلالة. ولذلك فمن الممكن أن نستخرج من 
ذخيرة كبيرة الحجم مجموعة الكلمات الحقيقية التي تسبق كلمة مفردة من 
الكلمات التي تُكَوّن مجموعة كلمات مترادفة وتلحقهاء وإنشاء برمجية تقطيع 
آلية تتخذ من مجموعة الكلمات تلك كودًا للتصنيف الدلالي. ونظرًا إلى أن 
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هذا النوع من التعلم الآلي في اكتساب المعلومات الخاصة بإزالة اللبس 


الدلالي عن الكلمات غير مُوَجّه؛ ومن ثم فإن بإمكانه تقليل الكثير من 
الأعباء المالية التي. يفرضها تدخل العنصر البشري في عمل الترميز الدلالي 
للكلمات داخل الذخائر اللغوية. وقد أثبتت التجارب أن أنماط إزالة اللبس 
الدلالي تلك تتميز بنسبة دقة عالية في إزالة اللبس الدلالي عن الكلماتء هذا 
بالإضافة إلى أنها تتميز بإمكانية الانتقال في التطبيق عبر أنواع الننصوص 
المختلفة. وفيما يلي نقدم تعريفا بالبحث الذي قامت به الباحثة لي جوان تزي. 


١‏ - تعريف بمعجم (غابة المترادفات) 

اعتمد مؤلف معجم (غابة المترادفات)""" Gies)‏ عليه اختصار! (غابة 
الكلمات) في أثناء وضع التصنيفات الدلالية للكلمات على الكلمة كعنصر 
اُساسي» مع الاستعانة برموز التصنيف النحوي لهاء بالإضافة إلى الاهتمام 
الشديد بالكثافة النسبية لموضوع الحديث. وهذا المعجم الخاص بالتصنيفات 
الدلالية قد قسسّم الكلمات من حيث المعنى إلى ثلاثة مستويات: مستوى 
التصنيف NS‏ والأوسط والأصغرء وفي هذا الإطار قام بتقسيم الكلمات 
إلى عدد ١7‏ تصنيفا كبيراء وعدد 44 تصنيفا وسطاء وعدد ١478‏ تصنيقًا 
صغيراء ويضم التصنيف الصغير عدذا من الكلمات كعناوين يندرج في 
إطارها مجموعات الكلمات المترادفةء ويصل عدد تلك العناوين إلى 976 
عنوانا. 


. يَسشتخدم معجم (غابة المترادفات) الحرف اللاتيني الأول في شكله 
الكبير ككود للتصنيف الأكبرء يليه مباشرة الحرف الثاني في شكله الصغير 
ككود للتصنيف الأوسطء أما الكود الثالث والرابع في التصنيف الدلالي 
فتتَحْدَم له الأرقام العربية؛ حيث يشير كل منها إلى كود التصنيف الأصغر. 
والعناوين التي تندرج تحت التصنيف الأصغر يُسْتَحْدَمم لها أيضًا الأرقام 
العربية. على سبيل المثال الكلمة "2515" "إدراك"؛ كود التصنيف الدلالي لها 
هو "6415" حيث يشير الحرف "6" في هذا الكود إلى التصنيف الأكجر 
ويضم الكلمات التي تُعَبّر عن "النشاط النفسي" أما الحرفان "38" فيشيران إلى 
التصنيف الأوسط ويضم الكلمات التي تُعَبّر عن "الحالة النفسية"؛ أما كود 
التصنيف الأصغر فهو "615 وهكذا يتم التعبير عن ذلك في المعجم كما 
يلي: 





Gal5 醒悟 ie — 
FRET DE PAA PA R TE A... 


懂事 ”记事 儿 FS mys 


أي أن الكود'6415" يضم تحته كلمتان تعبر كل منهما عن عنوان 
لمجموعة من المترادفات هما "845" "انتباه", و "46#" 'فهم". لذلك فإن الكود 
الدلالي الكامل لكلمة "2618" 'إدراك" هو 1501© وهذا لأن هذه الكلمسة 
وقعت في الموضع الثاني في قائمة المترادفات. 
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ونظرً! إلى أن المداخل الدلالية في معجم (غابة المترادفات) تتخذ من 
الكلمات المفردة وحدة لهاء فإن الكلمات متعددة الدلالة تأخذ أكوادًا مختلفة 
وفقا لمعانيها. على سبيل المثال الكلمة "844" لها ثلاثة مداخل دلالية في 
معجم (غابة المترادفات) كما يلي: 

)0( مادة تدخل في صناعة منتج. 

(۲) مادة مرجعية تدخل في تأليف كتاب أو مواد علمية يتم تقديمها 

بغرض الاطلاع. 
)1( 3805 للكناية عن بعض الأشخاص الذين يصلحون لأداء مهمة 


معبنه. 


وهذه المعاني يقابلها الأكواد التالية على التوالي: '8406“ “Dk17"‏ 
"A103"‏ 

وفي أثناء إزالة اللبس الدلالي عن كلمة "#484" يتم وضع الكود 
المناسب لها وفقا للسياق الذي يظهر معها داخل النص. 

وكما سبق أن أشرنا نجد أن منظومة ترميز التصنيفات الدلالية داخل 
معجم (غابة المترادفات) عبارة عن تركيب شجري كما يتضح من الشكل 


se 
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شكل (4-5): التركيب الشجري لمنظومة أكواد 
التصنيفات الدلالية بمعجم ((غابة المترادفات)) 


التصنيف الأكير (12) 
التصنيف الأوسط (94) 


التصئيف الأصغر (1428) 





التصنيف الأصغر الفر عي (3925) 


وفي الحقيقة» إن الكلمات التي ضمها معجم (غابة المترادفات) يضم 
عدد 50154 مادة موزعة ما بين الكلمات بشكل أساسيء بالإضافة إلى 
بعض التعبيرات اللغوية والأمثال والكلمات المأثورة. ويوضح الجدول رقم 
١5-5‏ توزيع الكلمات متعددة الدلالة داخل معجم (غابة المترادفات)؛ التي 
يصل عددها الإجمالي إلى 747١‏ كلمة وتشغل نسبة .90١4,8‏ والجدير 
بالذكر أن ما يقرب من نصف عدد الكلمات أحادية المقطع؛ التي يصل عددها 
إلى ۳۷۷١‏ كلمة بما يمثل 961,57 من العدد الكلي للكلمات التي ضمها 
المعجم (عدد ١٠١١‏ كلمة)» هي كلمات متعددة الدلالة؛ وبالمقارنة نجد أنه 
من بين عدد 45737٠‏ كلمة متعددة المقطع؛ يوجد نسبة %١١,١‏ كلمة متعددة 
الدلالة. | 


465 


جدول (ه-5١):‏ توزيع الكلمات متعددة الدلالة في 
معجم (غابة المترادفات) 





















الكلمات 
زهلا.؛ | eyvye | %AV,4‏ 
ona‏ | كمه | vers‏ 
onos | Aye | ETA‏ | 










الات il‏ 
كلمات متعددة المعنى 
الإجمالي 

إن درجة الصعوبة أو السهولة في مهمة إزالة اللبس الدلالي عن 
الكلمات يُمْكن أن تظهر من خلال استكشاف الذخيرة. فعلى سبيل المثال» قد 
نجد أن ما يقرب من 9957 من إجمالي عدد كلمات الذخيرة عبارة عن 
كلمات لها أكثر من معنى. وكما سبق أن أشرناء فإن التصنيفات الدلالية في 
معجم (غابة المترادفات) قد استعانت بالتصنيفات النحوية للكلمات» على سبيل 
المثال نجد أن التصنيفات الكبرى التي تشير إليها الحروف من 0-۸ تندرج 
تحت تصنيف الأسماءء أما الأرقام والكلمات الكمية فتندرج تحت التصنيف 
الأوسط وتأخذ الحرفين ه«2: والحرف 3 يشير إلى.الصفات» أما الحروف 
من 3-7 فتشير إلى تصنيف الأفعال. لذلك فإنه بالنسبة إلى نص قد سبق 
تمييز حدود الكلمات به وترميزها من حيث التصنيف النحوي» فإنه يمكن 
تمييز معنى عدد غير قليل من الكلمات متعددة الدلالة ال خا ية رقا 
للتصنيف النحوي لتلك الكلمات: وتشير البيانات الإحصائية أنه بعد إزالة 
اللبس عن التصنيف النحوي للكلمات» انخفض عدد الكلمات متعددة الدلالة 
داخل الذخيرة من 5 إلى MVE‏ وقد قلت نسبة تواجدها داخل الذخيرة 


















Neth عدار‎ 
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؟- التعبير عن فراغ المُتّجَهات في معجم ((غابة المترادفات)) 

'"يمكنك معرفة معنى الكلمة من خلال الكلمات المصاحبة لها", هذا ما 
قاله عالم اللغة فيرث (8:ة1'”!)8! عند وصفه لطريقة تمييز معنى الكلمة. 
Shel‏ بذلك أن معنى الكلمة لا يمكن الاستدلال عليه إللامن خلال 
الاستخدام. وعلى هذاء فإن استطلاع السياق المصاحب لكلمة ما في كل مرة 
من مرات ظهورها داخل ذخيرة لغوية» يُمَكننا من الحصول على معاني تلك 
الكلمة من خلال العلاقات التصاحبية بينها وبين الكلمات الأخرى. ولا يقتصر 
الأمر على أن لكل كلمة مجموعة العلاقات التصاحبية التي ترد معها فحسب» 
بل إن الكلمة الواحدة تختلف مجموعة التصاحبات التي ترد معها كلما 
اختلف معتاها. 

ونظر! إلى أن معنى كلمة ما يمكن وصفه من خلال مجموعة الكلمات 
التي تظهر معها (باختصار علاقات. التصاحب)ء لذلك فمن الممكن اس تخدام 
مُتَجّه متعدد الأبعاد في التعبير عن معنى محدد للكلمة. وقد قامت لي جوان 
تزى بتعريف هذا النوع من المتّجَهات بأنه مُتّجَهِ دلالة الكلمة. وبمزيدمن 
التفصيل فإن مُتجّه دلالة الكلمة يتكون من مجموعة من العناصرء وكل 
عنصر من هذه العناصر يمثله كلمة من الكلمات الحقيقية التي تتصاحب مع 
الكلمة متعددة الدلالة؛ ويمثل هذا المُتّجه أحد أبعاد الفراغ الدلالي للكلمة. 

وعند التفكير في متطلبات تنفيذ هذا المشروع؛ من المفضل تحديد 
"السياق" المصاحب لدلالة الكلمة على أنه مجموعة الكلمات الحقيقية التي ترد 
قبل هذه الكلمة أو بَعدّهاء التي يُرْمَزْ لموضعها بالرمز 0» وعلى هذا فإن 4+ 
يُطلق عليها نافذة الاستقراء التي a pT‏ استطلاع التصاحبات اللغوية. 
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ونظرا إلى أن هذه المجموعة من الكلمات الحقيقية تختلف في على 
الظهور في إطار الفلك الدلالي للكلمة موضع الدراسةء فإن هناك ضرورة 
لاستخدام وزن (561884) مُحدّد لكل كلمة حتى يمكن تمييز قدرة كل واحدة 
منها. وقد عرفت لي جوان تزي وزن الكلمات الحقيقية التي تمثل المُتجَهات 
الدلالية للكلمة على أنه احتمال تصاحب الظهور بين الكلمات الحقيقية :7 
ودلالة كلمة معينة 5 ويرمز لهذا الوزن بالرمز (:5:5. ويبدو من ذلك أن 
وزن الكلمات المصاحبة لدلالة الكلمة (*/ يمكن تقدير قيمته من خلال 
إجراء بعض العمليات الإحصائية على ذخيرة لغوية. 

ومن خلال التعديل السابق نجد أن كل عنصر من العناصر المُكوّنة 
asad‏ دلالة Vo duis‏ يمكن الإشارة إليه باستخدام احتمال تصاحب الظهور 
P(S,x;)‏ , أي أن cll Vx, = P(s,x;)‏ ففي ui‏ الأمر 3 aaa‏ الدلالي 
للكلمة يساوي قيمة حقيقية لمتّجّه متعدد الأبعادء وهذا المُتَجَّهِ الدلالي عبارة 
عن مجموعة المتّجَهات التي تُكُون الفراغ الدلالي للكلمة ويُطلّق عليه أيضنا 
اسم فراغ المُتَجّه الحقيقي متعدد الأبعاد. 

هذا ويعتمد الوصف السابق لمعنى الكلمة على مرجعية الفرضين 
التاليين: 

[الفرض الأول] إذا تساوت دلالة كلمتين» فإن ذلك يؤدي إلى تساوي 
الكلمات التي تتصاحب معهما في السياق النصي. وإذا استخدمنا المُتَجَّه 
الدلالي في التعبير عن السياق المصاحب لهاتين الكلمتين» فسوف يكون هناك 
تقارب في المسافة بين الفراغ الدلالي لهما. 
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[الفرض الثاني] هناك عدد من الكلمات تتشابه أو تتقارب في المعنى؛ 
وهذه الكلمات تظهر كأنها انتلاف من النقاط المتجاورة من حيث قيمة الفراغ 
الدلالي الذي يمثلها. 

ومدى موثوقية الفرض الثاني يمكن إثباتها من خلال صفة التعنقد التي 
تتميز بها دلالات الكلمات» والغرض من ذلك هو اختبار مدى التطابق بين 
نظام التصنيف الدلالي المُتَبّع في معجم (غابة المفردات) وبين مجموعات 
الكلمات المترادفة (متقاربة المعنى) التي يتم الحصول عليها من خلال 
الفرض الثاني والذي يمثل صفة التعنقد للكلمات المترادفة والمتقاربسة في 
المعنى. وقد صمّمّت لي جوان تزي تجربتها كما يلي: يتم اختيار أي 
مجموعتين من الكلمات 8؛ 8 من معجم (غابة المترادفات)؛ حيث تمثل كل 
منهما فئة دلالية أصغرء وبشرط أن تتساويا من حيث التصنيف cog pl‏ 
وعلى فرض أن كلا من Ca‏ و6© تشيران إلى قائمة الكلمات الكاملة التي 
تندرج تحت المجموعة 4ء و8 على التواليء أي أن: 

C, = {WA,,WA,,...,WA,,} 
C, = {WB,,WB,,...,WB, } 

/ المجموعة‎ Na gy WAG at) a te 
Liig. B ås gapa وتشير ””""'< ۶" إلى كلمة أحادية المعنى في‎ 
LN لمبادئ تكوين المّتّجه الدلالي للكلمات؛ يمكننا الحصول على المُتّجّهِ‎ 
سالفة الذكر داخل ذخيرة كبيرة الحجم. ثم يتم‎ GLAS ye MOM) لأي كلمة‎ 
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إعادة تصنيف جميع الكلمات التي تقع في إطار مجموعتي الكلمات 
C=C, UC‏ من حيث مدى تقارب المسافة بين مُتّجَّهاتها أو تباعدهاء وقد 
a chy‏ التعنقد أن مجموعتي الكلمات 6G‏ و2© تحتويان 
6< 6©, بالإضافة إلى أن Ig GNG‏ كانت Ci yn LS‏ 
و2© متطابقتان لدرجة معينة مع كل Co g eCa wn‏ فإن هذا يعني أن 
الفرض الثاني فرضًا صحيحا. 

عند استخدام طريقة حساب المسافات الأقصر السابق ذكرها؛ التي تتخذ 
الاتجاه من أسفل إلى أعلى عند إجراء عملية جمع التصنيفات» تكون البداية 
أن نضع الكلمات التي تندرج في القائمة ©؛ التي يزيد عدد مرات تكرارها 
عن مائة مرة في المجموعة © والمجموعة 2“» ثم نقوم بتكرار عملية جمع 
التصنيفات بالطريقة نفسها على الكلمات التي تكررت بعدد مرات أقل. 

وصل نطاق الذخيرة المُستَخدّمة في تجربة جمع التصنيفات إلى ٠"‏ 
٠‏ ميجا بايت. ويحتوي الجدول ١5-5‏ أزواج أكواد التصنيف الدلالي 
المستخدمة في التجربة» بالإضافة إلى معلومات عن معدل تكرار تلك الأكواد 
داخل الذخيرة. ويعرض الجدول ٠١-١‏ نتيجة التجربة. وقد تم حساب معدل 
التوافق بين كل من التصنيف الدلالي للكلمات القائم على المُّتّجّهات الدلالية: 
وأكواد التصنيف الدلالي المستخدمة في معجم (غابة المترادفات) من خلال 
المعادلة التالية: | 
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عدد الكلمات المشتركة بين نتيجة التصنيف باستخدام المُتّجّهات الدلالية 
وبين أكو اد معجم ((غابة المترادفات)) 
عدد الكلمات الكلي في القائمة € 











جدول (ه-١5١):‏ نماذج من أزواج الأكواد الدلالية 
المستخدمة في معجم ((غابة المترادفات)) 





وعدد مرات ظهورها في الذخيرة 


















































2201 أزواج أكواد | عدد الكلمات‎ 
ا٠ کرین اگرمن‎ er 
11/13 9/9 7/6 6538/6005 18/17 Hc11/Hc03 
8/10 5/6 | 4/5 3954/3415 16/16 129 
13/13 7/9 5/6 6165/6005 18/17 He11/Hi03 
9/10 4/6 4/6 ` 6735/6800 20/15 | Aa03/Ae07 
3/0 9/11 8/8 | 11531/12017 28/27 eon 
10/8 6/3 | 3/2 4054/3534 17/15 Ed29/Ed11 
8/5 | 4/2 3/1 2656/2599 17/14 | Ed16/Ef08 
5/6 3/4 2/4 2003/2303 6/7 | Gb15/Hj20 | 








حيث تعني "أزواج أكواد التصنيف الدلالي" في الجدول السابق زوج 
التصنيف الدلالي الذي يتم اختياره من معجم (غابة المترادفات)» أما 'عدد 
المفردات أحادية الدلالة" فيعني عدد الكلمات التي لها معنى واحد داخل قائمة 
المترادفات التي يمثلها كل كود من أكواد التصنيف الدلالي» أما "العدد الكلي 

ت" فيعني العدد التراكمي الذي يمثل مرات ظهور هذه الكلمات أحادية 
المعنى داخل الذخيرة» أما "أكبر من "٠٠١‏ فتعني عدد الكلمات أحادية المعنى 
داخل كل تصنيف دلالي؛ التي يتجاوز عدد مرات ظهورها مائة مرةفي 
الذخيرة» والباقي من عناوين الأعمدة على القياس نفسه. 
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جدول معدل التوافق بين نتيجة التتصنيف 
وأكو اد معجم (غابة المتر ١ (Sy‏ 


















































أزواج أكواد T‏ أكبر من Y‏ كير من TV‏ أكبر من ٠١‏ | متوسط معدل | 
| التصنيف الدلالي | ine., — j‏ | مرات التوافق ٠‏ 

%1۰ | %1 | ۰ | h | “Ba06/Dal9 

%AY,o WAE, £ %۹۰,۰ %۹, Aa03/Ae07 

%Vo,0 %۷0,۸ %0, | %Ave | Di10/Di08 
%AE HAIA | %Ae 人 和 %1۰ Gb15/Hj20 | 
%14,۳ AvE | Aag %۹,۹ He11/Hi03 | 

%۷,۱ %41,۷ %1.۰ %1.۰ Hec11/Hc03 

%۸1, AAY, Y %1.۰ ZARE _|__ Ed16/E£08 

3 %۸, PAT | Are’ 0۰ | Ed29%/Æf11 

ma HAEA %۹,6 %41,۱ مقو سل‎ 

d 8 | aa 





وتشير نتيجة التجربة إلى أنه: 

)١(‏ إذا نظرنا إلى التصنيف الدلالي للكلمات أحادية المعنى التي يزيد 
ase‏ مرات ورودها في الذخيرة عن ٠‏ مرة وفقا لقرب المسافة 
بين المُّتّجَّهات الدلالية لهذه الكلمات أو بُعدهاء نجد أن ما يزيد عن 
۰ من هذه الكلمات يتوافق تماماا مع معجم (غابة المترادفات) ؛ 
حيث وصل متوسط معدل التوافق إلى WAN‏ أما الكلمات التي 
تجاوز عدد مرات ظهورها 5٠‏ مرة: فقد كان من بينها أكثذر من 
9087 يتوافق مع معجم (غابة المترادفات)» وقد كان متوسط معدل 
التوافق لهذه الفئة 9030,54. وهذا يعكس مصداقية الفرض الثاني. 
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(Y)‏ )13 نظرنا إلى متوسط معدل التوافق بين نتيجة التصنيف الآلية 
وتصنيف معجم (غابة المترادفات)ء نجد أن الكلمات التي لها معدل 
تكرار أعلى تتفوّق بوضوح على الكلمات التي لها معدل تكرار 
أقل. والسبب في ذلك يرجع إلى أنه كلما زاد عدد مرات ظهور 
الكلمة؛ أصبحت البيانات الإحصائية أكثر مصداقية» فضلاً عن 
اقتراب مؤشرات المُتّجَهات الدلالية من الواقع؛ وبالطبع يزداد 
متوسط معدل التوافق مع معجم (غابة المترادفات). 

() وبصورة عامة» فإن نتيجة التصنيف الناتجة عن أزواج الأكواد 
التي تنتمي إلى تصنيفات دلالية كبرى مختلفة تكون أفضل من 
نتيجة التصنيف لأزواج من الأكواد تنتمي إلى تصنيفات دلالية 
كبرى متشابهة» على سبيل المثال: 8206/9819 أفضل من 
7 وهذا يدل على أنه كلما زاد التباين بين أكواد 
التصنيفات الدلالية في معجم (غابة المترادفات)» Cnt‏ المسافة بين 
الفراغ الدلالي للمتجهات الدلالية التي تمثل هذه الأكواد؛ ولذلك فمن 
السهل الحفاظ على مقدار من التوافق بين نتيجة التصنيف الآلية 
وبين تصنيف معجم (غابة المترادفات). وما ينبغي التأكيد عليه هو 
أن المرجعية التي اعتمد عليها معجم (غابة المرادفات) في وضع 
أكواد التصنيفات الدلالية التي تصنف مجموعات الكلمات المترادفة 
هي الرؤية الذاتية أو الحس اللغوي لعلماء اللغة؛ أما تكوين 
E‏ الدلالية للكلمات فتعتمد على تصاحب الظهور بين 
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الكلمات داخل النصوص؛ بالإضافة إلى أن ذلك يتم من خلال 
استقراء ذخيرة نصوص ذات نطاق واسع» وهذا يشير إلى أن 
المنهجيتين مختلفتين بشكل كلي. إلا أن نتيجة التصنيف الدلالي التي 
توصل إليها الحاسب الآلي عن طريق قياس المسافة بين المُتّجَّهات 
الدلالية للكلمات كانت متطابقة إلى حد كبير مع نتيجة التصنيف 
الدلالي لمعجم (غابة المترادفات). وهذه الحقيقة تشير إلى منطقية 
الفرضين اللذين قدمتهما لي جوان تزي عن الوصف الدلالي 
للكلمات» هذا بالإضافة إلى أن الحس اللغوي لعلماء اللغة يمكن 
قياسه عند حدود معينة. 
وخلاصة ما سبق أن أية مجموعة من الكلمات المترادفة دائمًا ما 
تحتوي عدذا من الكلمات أحادية الدلالة» وأن استخراج الكلمات الحقيقية التي 
تتصاحب مع هذه الكلمات أحادية الدلالة في ذخيرة واسعة النطاق أمسّ يمكن 
تحقيقه آليّا بعيدَا عن تدخل العنصر البشري بصورة كاملة. إضافة إلى ذلك 
ووفًا للفرض الثاني» فإن مجموعة الكلمات المترادفة (أي تلك التي يكون لها 
كود دلالي واحد) دائمًا ما يمكن استخدام مُتّجّهِ دلالي واحد يشير إليها. وهذا 
anal‏ الدلالي هو مركز Clg‏ التي توضع لجميع الكلمات أحادية الدلالة 
في مجموعة الكلمات المترادفة. 
AROSE HL eal doe A‏ 
الحقيقية المصاحبّة؛ التي يشار إليها بالرمز 50 GEL.‏ حيث تشير 7 إلى 
عدد الأبعاد hd id efi dd (al‏ فرض أن 4 تشير إلى الكلمات 
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أحادية الدلالة الموجودة في مجموعة كلمات مترادفة» فإن القيمة الموجودة في 

المُنّجّه الفرعي © يمكن حسابها من خلال قيمة المتوسط الحسابي لمجموعة 

احتمالات PW)‏ بي الكلمات أحادية الدلالة والكلمة 7 كما يلي: 
بين جميع و 


V, P(w, x,) 
' ae 


حيث تشير |4| إلى إجمالي عدد الكلمات في قائمة الكلمات أحادية 
الدلالة A‏ أما ” فتشير إلى أية كلمة في القائمة „A‏ 

وقد قامت لي جوان تزي بتكوين متجهات للتصنيفات الدلالية الصغرى 
في معجم ((غابة المترادفات)) من خلال ذخيرة حجمها VY‏ ميجا بايت مكوّنة 
من نصوص جريدة الشعب اليومية» وقد قامت بتكوين فراغ دلالي من هذه 
ileal‏ الدلالية. وقد كانت المسافة قصيرة بين المُّتَجَّهات الدلالية للكلمات 
المتقا ربة في المعنى وسط هذا الفراغ الدلالي. ومن ثم؛ تكوّنت متجهات 
دلالية تَعبّر عن تلك الكلمات متقاربة المعنى؛ بالإضافة إلى أن هذه المّتجّهات 
الدلالية يمكن ضمها معًا لتكوين ha) dois‏ طبقة دلالية معينة» وهكذا يتم 
تكوين فراغ دلالي للكلمات ذات تركيب متدرج كما يتضح من الشكل .O-%‏ 
وقيمة هذه الدراسة تكمن في أنها نقتم نوا من الصياغة المعلوماتية لكيفية 
إزالة اللبس الدلالي بطريقة حاسوبية» وهذه المعلومات الخاصة بإزالة اللبس 
من الممكن استخدام الحاسب الآلي في الحصول عليها آليّا من ذخيرة لغوية 
ذلت تظاق متسع. ومن نَم يمكن تجنب الأعباء الهائلة التي كانت تلقى على 
عاتق العنصر البشري في الماضي لعمل الترميز الدلالي للذخائر اللغوية. . 
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إن الاعتماد على هذا النموذج اللغوي في إزالة اللبس الدلالي عن 
الكلمات قد نشأ عنه اختصار عمليات تمييز معنى الكلمة متعددة الدلالة إلى 
خطوتين: الخطوة الأولى تتمثل في تكوين مُتّجّه للفراغ الدلالي للكلمة متعددة 
الدلالة وفقا للسياق الذي ترد فيه (عادة ما يكون هذا السياق جملة)؛ ثم يتم 
البحث عن المُتّجَهات الدلالية المقابلة لهذه الكلمة متعددة الدلالة انطلاقًا من 
الفراغ الدلالي لهذه الكلمة. ويتم الحكم النهائي على معنى الكلمة في السياق 
الحالي من خلال تحديد أقرب مجه دلالي ALIS ods aad‏ 

۳- نموذج إزالة اللبس الدلالي عن الكلمات اعتمادا على الفراغ الدلالي 

للكلمة داخل التركيب 

يتكون هذا النموذج الذي بُسْتَخْدَم في إزالة اللبس الدلالي عن الكلمات 

انطلاقا من الفراغ الدلالي للتركيب من العناصر المُوَضتّحة بالشكل ه-5. 
وفيما يلي نشرح وظيفة كل عنصر من هذه العناصر: 

(أ) استخراج الخصائص: وذلك من خلال البحث عن الكلمات الحقيقية 
التي تتصاحب مع هذه الكلمة في كل مرة تظهر فيها داخل 
النص» مع اعتبار موقع هذه الكلمات والمشار إليه بالرمز 4 قبل 
الكلمة موضع البحث وبعدهاء مع اعتبار أن AGH)‏ وهذه 
الكلمات الحقيقية التي يتم الحصول عليها يُنَظر إليها على أنها 
الخصائص المنتَحَبة لهذه الكلمة. وهذه الخطوة يتم تنفيذها مرة 
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(ب) الاختيار بين الخصائص: وفقا لمجموعة الأكواد الدلالية للكلمة 
متعددة الدلالة موضع البحث يتم تحديد الكلمات التي تساعد في 
الحكم على معنى الكلمة متعددة الدلالة؛ وذلك وفقا لقيمة درجة 
الحيرة (الإنتروبي) الذي يُعْبّر عن خصائص الكلمات المنتخبة» 
وتمثل هذه الكلمات مجموعة الخصائص الدلالية التي تتصف بها 
هذه الكلمة. على سبيل المثال كلمة “PHRF‏ هي كلمة متعددة 
الدلالة لها ثلاثة أكواد دلالية «(Ba06/Dk17/A103)‏ فتتم مرحلة 
اختيار الخصاص وعمليات القياس التي تتبغها وفقا لهذه 
التصنيفات الدلالية الثلاثة. لذلك فإن عملية ٠‏ 
تفاعلية في إزالة اللبس. | 

(ج) وزن الخصائص: بعد اختيار الخصائصء يتم حساب قدرة كل 
خاصية على التوصيف الدلالي للكلمة موضع البحث» ونتيجة 
ذلك الحساب هي وزن كل خاصية من هذه الخصائص. ومسن 
ذلك يتم تكوين مُتَجّه للخصائص الدلالية لكل تصنيف دلالي 
تنتمي إليه الكلمة متعددة الدلالة. 
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شكل )2-0( نموذج إزالة اللبس الدلالي عن الكلمات 
اعتمادًا على الفراغ الدلالي للكلمة داخل التركيب 





(د) التعبير عن الخصائص: وفقا لمجموعة الخصائص التي يتم 
اختيارها فيما سبق» يتم استخدام متجه خصائص واحد للتعبير عن 
السياق الذي تتواجد فيه الكلمة متعددة الدلالة موضع البحث. 

(ه) حساب درجة التشابه: حيث تُحسب درجة التشابه بين مُتَجَه 
الخصائص للكلمة موضع- الدراسة والذي تم تحديده في الخطوة 
السابقة وبين aak‏ الخصائص لجميع التصنيفات الدلالية التي تنتمي 
إليها تلك الكلمة. 58 

(و) تحديد معنى الكلمة: حيث يتم تحديد المعنى الحالي للكلمة من 
خلال التصنيف الدلالي الذي يحصل على أعلى درجة تشابه. فإذا 
لم يكن هناك مثل هذا التصنيف الدلالي» يتم التصعيد إلى الففة 
الدلالية التي تنتمي إليها الكلمة» وإعادة عمليات إزالة اللبس إلى أن 
يتم التوصل إلى تحديد معنى الكلمة. | 
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؛ - نتيجة تجربة إزالة اللبس الدلالي عن الكلمات 
قامت لي جوان تزي بتنفيذ هذه التجربة على ذخيرة نصوص إخبارية 
من (جريدة الشعب اليومية) وصل حجمها إلى ۷۲ ميجا بايت. وفي أشاء 
التجربة تم الاستعانة بمادة لغوية ثنائية التصنيف. وكان الهدف من الاختبار هو: 
أ- التأكد من فاعلية الطريقة الحاسوبية سالفة الذكر في إزالة اللبس. 
ب- استطلاع درجة إفادة منهجية الفراغ الدلالي للكلمة داخل السياق 
في تمييز دلالة الكلمات. وقد استخدمّت لي تزى جوان الأسلوب 
التجريبي في اختبار كل من اللبس الكاذب واللبس الحقيقي للكلمات. 
)١(‏ اختبار اللبس الكاذب في معنى الكلمة 
ما يُطلق عليه "اللبس الكاذب" هو "الكلمة متعددة المعنى" التي تنشأ 
معانيها من انتماء كلمة أحادية الدلالة إلى كودَيْن أو أكثر من أكواد التصنيف 
الدلالي. وباتباع طريقة إزالة اللبس التي نعرفها حاليّاء فإن من الممكن اعتبار 
تلك الكلمات أحادية الدلالة كلمات ذات تصنيف نحوي واحدء مثل: "لتكلا" 
و" ا" من الممكن أن يُكونا معًا زوجًا من الكلمات ذات اللبس الكاذب 
修改/ 收购"‏ ويكون تصنيف اللبس الخاص بهما كما يلي 18ع03/151ع11. 
| إن اختبار اللبس الكاذب هو أحد أنواع التجارب الحاسوبية التي 
تستخدم في إزالة اللبس (1992 JULES! la 5 «(Schutze 1992, Gale et al.‏ 
من شأنه أن بقلل الجهد الذي يستغرق في تجارب الترميز الدلالي للكلمات. 
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ويُجِرَى بالتفصيل من خلال البدء بالبحث عن عدد المرات التي تظهر فيها 
كل كلمة من الكلمات التي تنتمي إلى اللبس الكاذب داخل ذخيرة الاختبار» ثم 
تَستَبتل تلك الكلمات بأزواج كلمات اللبس الكاذب. وهكذا فبعد إزالة اللبس 
الدلالي» يمكن استخدام ذخيرة الاختبار الأولى في حساب معدل الدقة في 
إزالة اللبس الدلالي. وبصورة عامة فإن استخدام هذه الطريقة التجريبية من 
شأنه أن يختبر مدى فاعلية أي طريقة في إزالة اللبس الدلالي. 

وينقسم اختبار اللبس کب إلى نوعين: اختبار مغلق. واختيار 
مفتوح. . فالمادة اللغوية التي ة تستخدم في الذخيرة 5 المُغلقة يتم ختيارها من 
ذخيرة تجريبية؛ ere oa‏ اللبس 
الكانب بشكل عشوائي من الذخيرة. أما المادة المُسْتَخدمة في الاختبار 
المفتوح فيتم اختيارها من ذخيرة من التصنيف نفسه؛ ولكنها خارج نطاق 
الذخيرة التجريبيةء ويتم اختيار ٠٠١‏ مثال لكل زوج من أزواج اللبس الكانب 
بشكل عشوائي. ويتم حساب معدل الدقة في إزالة اللبس الدلالي من المعادلة 
التالية: 

عدد الكلمات التي تم تحديد معناها بشكل صحيح 


معثل الدقة- 2< العدد الإجمالي للكلمات التي تحمل لبمئا دلاليًا كاذبًا داخل ذخيرة 
الاختبار 





ويَعْرض الجدول ٠۷-١‏ عدد خمس نتائج اختبار للبس الدلالي الكانب. 
وهذا لإثبات أن مْتّجَهات التصنيف الدلالي التي تتكون من كلمات اللبس الدلالي 
الكاذئب تتمتع بصفة الشمولء أما الجدول ١8-5‏ فيعرض عدد المرات التي 
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تظهر فيها كل كلمة من أزواج اللبس الدلالي الكانب والفئات الصغرى التي 
تنتمي إليها داخل ذخيرة التجريب. وقد أظهرت نتيجة التجربة أن: 

أ- بالنسبة إلى متوسط معدل الدقة في إزالة اللبس الكاذب عن 
الكلمات» وصلت النسبة في كل من الاختبار المُغْلق والاختبار 
المفتوح إلى 9031,5: و9037,5 على التوالي. وهذا يدل علنى 
فاعلية نموذج لي تزي جوان لإزالة اللبس الدلالي اعتمادًا على 
الفراغ الدلالي للسياق المحيط بالكلمة» والطريقة التفاعلية التي 
استخدمتها في اختيار الخصائص كانت مناسبة. 

ب- هناك بعض أزواج اللبس الكانب» وعلى الرغم من أن عدد مرات 
ظهورها في ذخيرة التجريب كان ضعيفاء فإن التصنيفات الدلالية 
الأصغر التي تنتمي إليها هذه الكلمات كانت تظهر بكثرة في ذخيرة 
التجريب» ومن ثمّ حصلت هذه الكلمات على نسبة دقة عالية في 
إزالة اللبس. ويبدو من ذلك أن البيانات الإحصائية التي يتم 
الحصول عليها باستخدام الكلمات أحادية الدلالة داخل الذخيرة من 
الممكن أن تعكس بشكل أساسي الظروف العامة لتوزيع التصنيفات 
الدلالية داخل الذخيرة. 


)1( اختبار إزالة اللبس الحقيقي 


اللبس الحقيقي يشير إلى الكلمات التي لها تعدد دلالي حقيقي؛ حيث 
يكون من المهم اختيار جزء من تلك الكلمات متعددة الدلالة من بين 
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التصنيفات المختلفة للكلمات لإجراء التجربة. ونظوا إلى آن هذه الكلمياات 
متعددة Si Guy al UVa‏ فيها عند تكوين تهات التتصنيف الدلالي» 
لذلك لا تتضمن تجربة إزالة اللبس الحقيقي اختبارًا مُغلقا. وتبقى معادلة 
حساب معدل الدقة في إزالة اللبس الدلالي كما أوضحنا سابقا. 


جدول :)١375(‏ نتيجة تجربة إزالة اللبس الكاذب 

























































E a An ٠. ص‎ a 
أزواج كلمات اللبس معدل الدقة في الاختبار معدل الدقة في الاختبار‎ 
ْ1 الكاذب المغلق المفتوح‎ 
94.0% 97.5% 权利 /事故 
89.5% 91.0% 草案 /责任 
95.0% 98.0% 预算 /预赛 
93.0% 93.0% 收购 /修改 
| 87.0% | 92.5% 颁发 /参与 
92.6% 93.5% متوسط معدل الدقة‎ 








جدول :)18١-5(‏ إحصائية الكلمات التي تحمل لبسًا Gils‏ 


عدد مرات ظهور ‏ 
التصنيف الدلالي الأصغر 


2187/5088 959/979 Di21/Da01 权利 /事故 | 


4010/4177 929/1563 Dk17/Di22 草案 /责任 


4450/7914 176/841 Hj29/hh07 预算 /预赛 
1135/2383 788/954 He03/Hg18 收购 /修改 


825/449 Hel 1/Hi23 颁发 /参与 
ونتيجة اختبار اللبس الدلالي الحقيقي يُظهرها الجدول ه-5١؛ حيث‎ 
تشير نتيجة التجربة أن فكرة استخدام تكوين الفراغ الدلالي للكلمات أحادية‎ 
الدلالة وفقا للتركيب الذي ترد فيه مع الكلمات الحقيقية داخل ذخيرة التجريب‎ 

















482 


本 


النموذج اللغوي الذي استخدمته لي تزي جوان يتمتع بمعدل دقة أعلى. وأهم 
ما في الأمر أن هذا النموذج اللغوي يتمتع بالقدرة على إجراء عمليات إزالة 
اللبس للكلمات على نطاق واسعء بالإضافة إلى أن هذه الطريقة في وصف 
دلالة الكلمات قد استخدمت من حيث المبادئ في لغات طبيعية أخرى غير 


















































اللغة الصينية. 
جدول )19-0( نتيجة التجربة المفتوحة في إزالة 
اللبس الحقيقى عن الكلمات 
عدد مرات د ka‏ 
الكلمة e‏ ظهور معدل الدقة 
١ i‏ عدد التصنيف الد لالى : 1 
متعددة تصنيف اللبس 5 j‏ في إزاله 
: التجارب | الأصغر داخل 
الد لاله ie‏ اللبس 
الذخيرة 
Dk17/Ba06/A103 材料 |‏ 791 422/1021/1913 81.7% 
Th02/H¢g | 8/Hj66 改‏ 2841 309/1135/1315 70.6% 
Jd06/Di20/Hj59 表现‏ 754 20/1500/1323 68.9% 
发 表‏ 3 | 2973 214/2943/5761 73.4% 
Ed43/Eb37 建 康‏ 902 101/1056 70.1% 
| متوسط معدل الدقة 72.9% 
ه - الخلاصة 


(أ) إن نموذج إزالة اللبس الدلالي اعتمادًا على الفراغ الدلالي للكلمة 
داخل التركيب من' الممكن أن بقلل أعباء العمل في الترميز الدلالي 
للكلمات أو بناء بنك معلومات ذي نطاق واسع حول إزالة اللبس 


Nall‏ عن الكلمات. 
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(ب) بالنسبة إلى الفراغ الدلالي للكلمة داخل التركيبء فإنه كلما 
انخفضت قيمة مُتّجه التصنيف الدلالي» عبر ذلك بصورة واقعية 
عن أحوال توزيع التصاحب للكلمات المترادفة داخل ذلك التصنيف 
الدلالي؛ ومن ثم يرتفع معدل الدقة في إزالة اللبس الدلالي. ومن 
المقترح أن تقتصر مستويات إزالة اللبس بهذه الطريقة على 
المستويين الثالث والرابع (أي التصنيف الأصغر والأصغر الفرعي 
بمعجم (غابة المترادفات). | 

(ج) إن جودة نتيجة إزالة اللبس الدلالي أو سوءها تتوقف على 
الخصائص النحوية للكلمات متعددة الدلالة. فبصورة عامة نجد أن 
نتيجة إزالة اللبس الدلالي عن الأسماء أفضل منها بالنسبة إلسى 
الأقعال والصفات. وإذا تحدثنا عن الأفعال نجد أن نتيجة إزالة 
اللبس عن الأفعال متعددة الدلالة التي تقترن بمفعول به بسيط أفضل 
منها بالنسبة إلى الأفعال التي تقترن بمفعول به مركب (مشل 
المفعول به الجملةء والمفعول به المحوري الذي يشغل وظيفة 
المسند إليه بجانب كونه مفعولاً به). 

(د) كما أن نتيجة إزالة اللبس الدلالي تتوقف على تصنيف اللبس بالنسبة 
إلى الكلمة متعددة الدلالة» فكلما قلت المسافة بين الفئات الدلالية التي 
تتبعها الكلمات متعددة الدلالة» ضعفت نتيجة إزالة اللبس. 

إن بناء الفراغ الدلالي للكلمات انطلاقًا من السياق المصاحب لها 

اعتمادًا على ذخيرة كبيرة الحجم؛ يتناسب من حيث المبدأ مع معالجة أية 
كلمة حقيقية متعددة الدلالة» هذا بالإضافة إلى إمكانية تطبيقه مع أي لغة 
. أخرى غير اللغة الصينية. 


484 


485 


قائمة الرموز المستخدمة في التصنيف النحوي للكلمات 


N اسم‎ 

NG ale aul 

اسم علم شخصي ۸×۴ 
اسم علم جغرافي NL‏ 
اسم مؤسسة NU‏ 
ظرف زمان 7 
ظرف مكان 8 
کلمة موضع ۴ 
فعل ۷ 

VA acla فعل‎ 
IV فعل رابط‎ 

فعل معبر عن الاتجاه ۷Q‏ 
Jad‏ الكينونة ۷¥ 
فعل الملكية 7713 
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فعل مصدريي ×۷ 

فعل مصدري VNN Sie‏ 
فعل مصدري لازم 7/80 
أفعال عامة VG‏ 

فعل ذو مفعول مفرد ×۷6 
. فعل ذو مفعول مركب ۷6۷ 
فعل لازم ۷60 

صفة 4 

كلمة حالية 2 

تمييز 8 

M عدد‎ 

عدد أساسي 713 

عدد ترتيبي MX‏ 

MG (goal أعداد‎ 

كلمة كمية © 


كلمة كمية للاسم M0‏ 
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كلمة كمية للفعل QV‏ 
Rog‏ 

حرف جر 8 

D ظرف‎ 

حرف عطف © 2 

CF pie حرف عطف‎ 

حرف عطف CM Li)‏ 
خرف طف وخر ۸ 
كلمات مساعدة [1 

الكلمة المساعدة "8" USDE‏ 
الكلمة المساعدة "لل" 115121 
الكلمة المساعدة "78" USDF‏ 
الكلمة المساعدة "198" 11551 
الكلمة المساعدة "89" 115510 
الكلمة المساعدة 2" 115213 


كلمة مساعدة مُعبّرة عن الزمن UT‏ 
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كلمات مساعدة أخرى UX‏ 
كلمات اللهجة Y‏ 

الكلمات المعبرة عن الصوت O‏ 
كلمة تعجب E‏ 

سابقة 13 

لاحقة +1 

I is 

اختصار 3[ 

تعبيرات شائعة .آ 

أخرى × 

سلاسل الرموز غير الرموز الصينية XCH‏ 


علامات الترقيم (كل منها يمثل تصنيفا مستقلا) 
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فهرس المصطلحات الواردة في الكتاب 


عربي - صيني 
احتمال التحول 转移 概率 - transition probability‏ 
احتمال الظهور 出 现 概率‏ 
إحصاء معدل تكرار الكلمات 词 频 统计‏ 
اختبار زد Z 分 值 - Z-score‏ 
Mig x? a‏ 
im) KHER - Word Sense ;‏ 
زالة اللبس الد 
إزالة اللبس الدلالي Disambiguation (WSD)‏ 
إزالة اللبس الدلالي غير الموجه NIRS‏ 20114 
استقراء التوزيع الدلالي للكلمة 调查 词义 分 布‏ 
أسلوب الكتابة 体 载 - writing style‏ 
اكتساب اللغة B 4 - language acquisition‏ 8 
الإحصاء الكمي 定量 统计 - quantative statistics‏ 
الاختبار المغلق 封闭 测试‏ 
الاختبار المفتوح 开放 测试‏ 
الاختبارات الإحصائية 统计 测试 i‏ 
الأداء اللغوي .语言 使 用 - language performance‏ 
الاستعلام 索引 - search‏ 
الإحصائي السياقي عن 逐 词 索引 - concordance‏ 
الاستعلام بالكلمة 词语 检索 - word search l‏ 


文本 检索 - text search ”| الاستعلام بالنص‎ 
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关键 词 居 中 索引 - key word in context 


search 

疑问 

调查 

说 明文 体 

议论 文体 

记叙 文体 

描写 文体 

系 动 词 - copula 

特殊 化 动词 类 

情态 动词 

标准 偏差 - standard deviation 

词类 

数学 分 析 

计量 分 析 - quantitive analysis 

计量 语言 分 析 - quantative language 
analysis 

多 维 分 析 - multi-dimensional analysis 
词法 语法 关联 =- lexico-grammatical 
associations 
简约 性 和 不 爱 用 的 结构 

索引 行 的 排序 

机 器 翻译 - machine translation 
标注 - tagging 

搭配 - collocation 

左 搭配 词 

右 搭 配 词 
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الاستعلام عن كلمة مفتاحية داخل 
السياق 

الاستفهام 

الاستقراء 

الأسلوب التفسيري 

الأسلوب الجدلي 

الأسلو ب السر دي 

الأسلوب الوصفي 

الأسماء الموصوا aj‏ 

الأفعال التي لها سمات خاصة 
الأفعال المتصرفة 

الانحراف المعياري 

الأنواع النحوية للمفردات 
التحليل الرياضي 

التحليل الكمي 

التحليل الكمي للغة 

التحليل متعدد الاتجاهات 
التداخل المعجمي النحوي 
التراكيب المختصرة والتي ينذر 
استخدامها 

الترتيب Dr‏ 
الترجمة الآلية 

الترميز 

التصاحب 

التصاحب الأيسر 

التصاحب الأيمن 


自由 组 合 - free combination 
粘着 组 合 - bound combination 
搭配 词 - collocations 

常用 的 搭配 

模糊 范畴 - fuzzy catego 
语义 冲突 

基本 名 词 短语 
副词 短语 

形容 词 短语 

计数 - counting 
RR 

语义 亲近 - affinity 
自动 识别 

词组 边界 自动 识别 
语料库 自动 分 词 
光电 字符 识别 - 
recognition 

同 现 - co-occurrence 
词义 分 布 

自然 语言 生成 ”- automatic natural 
language generation | 

逐 词 索引 表 - key word in context 
(KWIC) 

主 谓 谓语 句 

状语 

处 所 和 时 间 状 语 

多 项 状语 


optical character 
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التصاحب الحر 

التصاحب اللصقي 
التصاحبات 

التصاحبات شائعة الاستخدام 
التصنيف الضبابي 
التضارب الدلالي 

التعبيرات الاسمية الأساسية 
التعبيرات الظرفية 
التعبيرات الوصفية 

التعداد 

التُعنقد 

التقارب الدلالي 

التمييز الآلي 

التمييز الآلي لحدود التعبيرات 
اللغوية 


التمييز الآلي لكلمات الذخيرة 
التمييز الكهروضوئي للحروف 


التو ار د 
التوزيع الدلالي للكلمة 
التوليد الآلي للغات الطبيعية 


الجدول السياقي للكلمات 

الجملة الإسنادية 

الحال 

الحال المُعَبّر عن المكان والزمان 
gow gall Sal‏ 


信息 量 - entropy 

智能 计算 机 

话语 - discourse 

同 质 的 语料库 - homogeneous corpus 
异 质 的 语料库 - heterogeneos corpus 
系统 的 语料库 - systematic corpus 
最 大 交集 字段 

上 下 文 - contexts 

语 式 

名 词 形式 

fa A 

代名词 

代 动 词 

搭配 尖峰 

并 列 

统计 相关 - correlational 

交集 因子 

样本 - samples 

词义 空间 


输出 无 关 假设 - output-independence 


assumption 

句子 成 分 自动 切 分 

检索 -- concordance 

看 言 能 力 - language competence _ 
Be 00 


#2 i# ia] - phrase word 
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الجمل المعلوماتي - الإنتروبي - 
مقياس درجة الفوضى 

الحواسيب الذكية 

. 2١ الخطاب‎ 

الذخيرة المتجانسة 

الذخيرة المختلطة 

الذخيرة المنظومية 


السلسلة ذات الطول الأكبر في 


التداخل 

السياقات 

الشكل اللغوي 

الصيغ الاسمية 

الضجيج المعلو ماتي 
الضمير المعبّر عن الاسم 
الضمير المُعبّر عن الفعل 
الطفرة التصاحبية 

العطف 

العلاقات التبادلية 

العناصر المتداخلة 

العينات 

الفراغ الدلالي للكلمة 
الفرض المستقل عن المخرجات 
الفصل الألي لعناصر الجملة 
الفهرسة 

القدرة اللغوية 

القيمة المبدئية 

الكلمات التعبيرية 


搭配 词 


关键 词 居中 索引 - KWIC key words in 


context 
高 频 词 


一 词 多 义 - polysemy 
中 心 词 

歧义 

真 歧义 

BEX 

通配符 

被 动 

向 量 - vectors 

输出 概率 密度 函数 - 
Probability Density Function 
定语 

& A 

ARE - representation 
书面 语 

口语 

语 域 - register 

谓语 

主语 

上 下 文 信息 

语 境 中 的 意义 

词汇 特殊 性 

情态 补 语 

程度 补 语 


الكلمات المتصاحبة 
الكلمات المفتاحية داخل السياق 
الكلمات ذات معدل التكرار 
الأعلي 
الكلمات متعددة الدلالة 
الكلمة المركزية 
لشن a‏ 
اللبس الحقيقي 
اللبس الكاذب 
اللواحق النحوية 
المبنى للمجهول 
olga all‏ 
المتوالية Ta‏ عن ANS‏ 
مخرجات الاحتمال ‏ * 
المُحَدّدذات 
المداخل اللغوية 
المرجعية 
المستوى التحريري للغة 
المستوى الشفهي من اللغة 
. المستويات اللغوية 
Paad‏ 
asl) ail‏ 
المعلومات السياقية 
المعنى السياقي 
المفردات الخاصة 
sd‏ المبين للحالة الشعورية 
Sa)‏ المبين للدرجة 


Output 
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经 验 主义 - empiricism 

理性 主义 - rationalism 

转换 生成 语法 理论 - transformational 
generative grammar 

经 验 主 义 - empiricism 

理性 主义 - rationalism 

比例 

段 次 比 

段 型 比 

定语 

多 项 定语 

谓语 形容 词 

定语 形容 词 - attributive adjectives 
否定 

语言 模型 - language modeling 
词 项 - lexical item 

句法 组 成 模板 

名 型 - Sentence pattern 

逐 词 索引 软件 

检索 系统 

索引 程序 - Concordance program 
引文 条 - citation slips 

建立 语料库 - corpus building 
编纂 - compile 

自动 句法 分 析 

话语 分 析 - discourse analysis 
因素 分 析 - factor analysis 
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المنهج التجريبي 

المنهج العقلي 

النحو التحويلي التوليدي 
النزعة التجريبية 
النزعة العقلية 

النسبة 

النسبة العددية 

النسبة النوعية 

النعت 

النعت المُوسّع 

النعوت الخبرية 

النعوت الوصفية 

النفي 

النمذجة اللغوية 
الوحدات المعجمية 
أنماط التركيب النحوي 
أنماط الجمل 

برمجيات الاستعلام عن الكلمات 
برمجية الاستعلام 
بطاقات استشهاد ورقية 
بناء الذخيرة. 

تجميع 

تحليل التركيب النحوي للجمل آليًا 
تحليل الخطاب 

تحليل العوامل 


文本 至 语音 转换 -- text to 501020 | تحويل النصوص المكتوبة إلى‎ 


conversion 


存储 语 料 - storage of language 


materials 

降序 排列 

标注 - tagging 

语料库 标注 - corpus tagging 
词类 标注 

词义 标注 - Word sense tagging 
搭配 

语料库 设计 - corpus design 
非 基本 名 词 短语 

介词 短语 

第 二 语言 的 教学 

特殊 用 途 的 语言 教学 

切 分 

句子 切 分 

频次 

对 文本 实行 电子 编码 
语音 识别 

分 词 

语 域 变 体 - register variation 
索引 表 

语料库 的 保护 - corpus protection 
主 从 关系 特征 


词语 搭配 的 研究 
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مكافنها الصوتي 

تخزين المادة اللغوية 

ترتيب تنازلي 

ترميز 

ترميز الذخائر اللغوية 

ترميز الكلمات من حيث 
التصنيف النحو 

ترميز معاني الكلمات 
تصاحب 

تصميم الذخيرة اللغوية 
تعبيرات اسمية غير أساسية 
تعبيرات الجار والمجرور 
تعليم اللغات للناطقين بغيرها 
تعليم اللغة للأغراض الخاصة 
تقطيع على مستوى الجمل 
تكرار 

تكويد النصوص إلكترونيًا 
تمييز الأصوات اللغوية 
تمييز حدود الكلمات 

تنوع المستوى اللغوي 

جدول مفهرس 

حماية الذخيرة اللغوية 
خصائص الإضافة 

دراسة التصاحبات اللغوية بين 
الكلمات 


离散 度 
自由 度 
维 分 - dimention score 
搭配 得 离散 度 
偏向 
数据 噪音 
搭配 的 明显 性 
凸显 词 
动态 语料库 - dynamic corpus 
规模 较 大 的 语料库 
监督 语料库 - monitor corpus 


专用 的 语料库 - specialized corpus 
训练 语料库 

语料库 - corpus 

生 语料库 - raw corpus 
计算 机 上 的 语料库 - computerized 
corpus 

文本 等 级 

宏 结构 


交集 型 歧义 切 分 字段 


交集 字段 

交集 字段 的 链 长 
Me KE 

出 现 
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درجة التشتت 

درجةالحريّة 

درجة المؤشر 

درجة انتشار التصاحب 

درجة ثحيز 

درجة ضجيج البيانات 

درجة وضوح علاقة التصاحب 
الكلمات ذات البروز الدلالي 
ذخائر لغوية ديناميكية متغيرة 
ذخائر لغوية فائقة الحجم 

ذخائر لغوية لمراقبة التغيرات 
اللغوية 

ذخيرة الأستخدام المتخصص 
ذخيرة تعلم 

ذخيرة لغوية 

ذخيرة لغوية خام 

ذخيرة لغوية مُميِكنة 

رتبة النص 

سلاسل ذات تركيب كبير 

سلسلة كلامية تحتاج إلى إزالة 
اللبس من خلال فصل تداخل 
الحدود 

سلسلة متداخلة 

صيغة الحالة 

طول سلسلة التداخل 

طول محور التداخل 

ظهور 


频次 

词 频 - word frequency 

语义 无 关 

标点 符号 - punctuation 

时 、 体 标志 

语义 学 - semantics 

语料库 语言 学 - corpus linguistics 
词法 - morphology 
历史 比较 语言 学 - 
comparative linguistics 
语 用 学 - pragmatics 
计算 语言 学 - computational linguistics 
理论 语言 学 - theoretical linguistics 
方言 学 - dialectology 

词典 学 - lexicography 

应 用 词汇 学 - applied lexicology 
语法 学 - grammar 

分 类 心理 学 

词典 编纂 - lexicography 

样本 - sample 

多 为 实 值 向量 空间 

转换 规则 空间 

马尔 科 夫 假设 - Markov assumption 
不 及 物 动词 - transitive verb 

及 物 动词 - untransitiveverbs 

助动词 - helpin verbs 
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historical- 


عدد مرات التكرار 

عدد مرات تكرار الكلمة 
عدم الارتباط إلدلالي 
علامات الترقيم 

علامة الزمن والحالة 

علم الدلالة 

علم الذخائر اللغوية 

علم الصرف 

علم اللغة التار يخي المقارن 
علم اللغة التداولي - علم 
الاستخدام اللغو 

علم اللغة الحاسو بي 

علم اللغة النظري 

علم اللهجات 

علم المعجمية 

علم المفردات التطبيقي 
علم النحو 

علم النفس التصنيفي 

علم تأليف المعاجم 

فراع المتجه الحقيقي متعدد 
الأبعاد ` 

فراغ قواعد التحويل 
فرض ماركوف 

فعل لازم 

فعل متعدي 

فعل مساعد 


名 动词 

不 可 带 宾语 的 动词 

可 带 宾语 的 动词 

趋向 补 语 

索引 - index 

数据 库 - database 

上 下 文 有 关 规 则 

相关 程度 - strength of the relationship 
搭配 强度 

BJE 

负 值 

语气 词 

结构 助词 

AY ia] 

状态 词 

量词 

名 量词 

动量 词 

时 态 助 词 

关键 词 居 中 - key word in context 
方位 词 

互信 息 - mutual information 
EE 

真 歧义 

伪 歧 义 

复句 

多 维 向 量 
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فعل مصدري 

فعل مصدري لازم 

فعل مصدري متعدي 
فعل معبر عن الاتجاه 
فهرس 

قاعدة بيانات 

قواعد التحويل السياقية 
قوة الارتباط 

قوة التصاحب ٠‏ 

قيمة الفرض المبدئي 
قيمة سالبة 

كلمات اللهجة 

كلمات مساعدة 

كلمة تعجب 

كلمة حالية 

كلمة كمية للاسم 

كلمة مساعدة مَعَبّرة عن الزمن 
كلمة مفتاحية داخل السياق 
كلمة موضع 

كمية المعلومات المتبادلة 
لاحقة 

لس زائف 

الجملة المركبة 

aa,‏ متعدد الأبعاد 


评价 函数 

PR BN 

限定 性 定语 

区 别 性 定语 

描写 性 定语 

PER ` 

ia] - entry 

公式 

语料库 的 加 工 - corpus processing 
然 语 言 处 理 - natural language 
processing 

召回 率 

频率 - frequency 

静态 频率 
真正 频率 - True frequency 
动态 频率 - variant frequency 
期 望 频率 - xpected frequency 
准确 率 

词 形 在 语料库 中 的 出 现 频率 
补 语 

数据 文件 - data file 

逐 词 索引 文件 - concordance file 


想象 性 文本 - Imaginative text 
知识 性 文本 - Informative text 
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مُثواليات التقييم 
متوالية | 
محذذات للتقبيد 
مَحَدْدَات للتمييز 
مُحَدْدَات للوصف 
محور التداخل 

معادلة 

معالجة الذخيرة 
معالجة اللغات الطبيعية 
معدل الارتداد 

معدل التكرار 

معدل التكرار الثابت 
معدل التكرار الحقيقي 
معدل التكرار المتغير 
معدل التكرار المتوقع 
معدل الدقة 

معدل ظهور الكلمةداخلالذخيرة 
مكمل المعنى 

ملف البيانات 

ملف سياقات الكلمات 
مؤشر 

نافذة 

نافذة الاستقراء 
نصوص إبداعية 
نصوص معلوماتية _ 


， 形 式 语 法 - Formal Grammar نظرية النحو الصوري‎ 
机 器 翻译 系统 - mahcine translation 


نظم الترجمة الآلية 

systems 
转换 规则 模板 نماذج قواعد التحويل‎ 
N TRE N jaial giga 
隐 马 尔 可 夫 模型 - Hidden Markov stadt bee 
Model (HMM) نموذج ماركوف الكامن‎ 
语言 工程 - language engineering هندسة اللغة‎ 
平衡 - balance التوازن‎ 
均值 المتوسط الخسابي‎ 
初始 标注 模块 وحدة الترميز المبدئي‎ 
UE - weight GJ 
微 结构 سلاسل ذات تركيب دقيق‎ 
文本 媒介 وسيط النشر‎ 
召回 率 معدل التغطية‎ 
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فهرس المصطلحات الواردة في الكتاب 


被 动 

比例 

编纂 

标点 符号 
标准 偏差 
并 列 

补 语 

不 及 物 动 词 
不 可 带 宾语 的 动词 
常用 的 搭配 
程度 补 语 
出 现 

出 现 概率 
初始 标注 模块 
处 所 和 时 间 状 语 
窗口 

-词典 编纂 
词典 学 

词法 语法 关联 
词汇 特殊 性 
词类 


صيني- عربي 
المبنى للمجهول 
النسبة 
compile - avai‏ 


punctuation - aS ill علامات‎ 
tagging - الترميز‎ 

الانحراف المعياري - standard deviation‏ 
العطف 

مكمل المعنى 

transitive verbs - a5Y Jad 

فعل مصدري لازم 

التصاحبات شائعة الاستخدام 

المُكْمّل المبين للدرجة 

ظهور 

احتمال الظهور 

وحدة الترميز المبدئي 

الحال المُعَبّر عن المكان والزمان 
N-gram - 3384‏ 

lexicography - aatedt علم تاليف‎ 
lexicography - 4jsx«ull ale 
morphology - = yal ale 
lexico- - التداخل المعجمي النحوي‎ 
grammatical associations 
المفردات الخاصة‎ 

الأنواع النحوية للمفردات 
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词类 标注 
词 频 
词 频 统 计 
词 条 
词 项 


词 形 在 语料库 中 的 出 现 频率 


词义 标注 
词义 分 布 
词义 空间 

i] EER 
词语 搭配 的 研究 
词语 检索 
词组 边界 自动 识别 
存储 语 料 

搭配 

搭配 

搭配 词 

搭配 词 

搭配 得 离散 度 
搭配 的 明显 性 
搭配 尖峰 
搭配 强度 
代表 性 

代 动 词 

代名词 


ترميز الكلمات من حيث التصنيف النحوي 
عدد مرات تكرار wordfrequency - SY‏ 
إحصاء معدل تكر ار الكلمات 

、 entry - Jas 

lexical item - الوحدات المُعجمية‎ 

معدل ظهور الكلمة داخل الذخيرة 

Word - US ترميز معاني‎ 
sensetagging 

التوزيع الدلالي للكلمة 

الفراغ الدلالي للكلمة 


إزالة اليس الدلالي - ) Word‏ 


SenseDisambiguation (WSD 
دراسة التصاحبات اللغوية بين الكلمات‎ 
word search - الاستعلام بالكلمة‎ 
التمييز الآلي لحدود التعبيرات اللغوية‎ 
storage - تخزين المادة اللغوية‎ 
oflanguage materials 
collocation - التصاحب‎ 

تصاحب 

التصاحبات - 00110020015 

الكلمات المتصاحبة 

درجة انتشار التصاحب 

درجة وضوح علاقة التصاحب 
الطفرة التصاحبية 

قوة التصاحب 

representation - المرجعية‎ 

الضمير المعبّر عن الفعل 

الضمير المُعبّر عن الاسم 
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第 二 语言 的 教学 
定量 统计 

定语 

定语 

定语 形容 词 
动量 词 

动态 频率 

动态 语料库 
短语 词 

段 次 比 

段 型 比 

对 文本 实行 电子 编码 
多 为 实 值 向 量 空间 


多 维 分 析 


多 维 向 量 
多 项 定语 
多 项 状语 
方位 词 
方言 学 
非 基 本 名 词 短 语 
分 词 

分 类 心理 学 
封闭 测试 
否定 _ 
负 值 

复句 


تعليم اللغات لاناطقين بغيرها 
الإحصاء الكمي - quantativestatistics‏ 
المُحَدّذات 

النعت 

النعوت الوصفية - attributiveadjectives‏ 
كلمة كمية للفعل 

معدل التكرار variantfrequency ~ stall‏ 
ذخائر لغوية ديناميكية متغيرة - dynamic‏ 
i corpus‏ 

phrase word - الكلمات التعبيرية‎ 

النسبة العددية 

النسبة النوعية 

تكويد النصوص إلكترونيًا 

فراغ المُتُجّه الحقيقي متعدد الأبعاد 

التحليل متعدد الاتجاهات - multi-‏ 
dimensionalanalysis‏ | 

متّجَّه متعدد الأبعاد 

النعت المُومتّع 

gow pall الحال‎ 

كلمة موضع 

dialectology - tae ale 

تعبيرات اسمية غير أساسية 

تمييز حدود الكلمات ٠‏ 

علم النفس التصنيفي 

الاختبار المغلق 

gil 

الجملة المركبة 
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副词 短语 
高 频 词 
公式 


关键 词 居中 


关键 词 居 中 索引 
观察 窗口 

光电 字符 识别 
规模 较 大 的 语料库 
函数 

宏 结构 

ER 

互信 息 

话语 

话语 分 析 

机 器 翻译 

机 器 翻译 系统 
基本 名 词 短 语 - 
及 物 动词 

计量 分 析 

计量 语言 分 析 
计数 
计算 机 上 的 语料库 


التعبيرات الظرفية 

الكلمات ذات معدل التكراز الأعلى 

معادلة 

كلمة مفتاحية داخل السياق - key wordin‏ 
context‏ 


. الاستعلام عن كلمة مفتاحية داخل السياق - 
key word in context search‏ 
نافذة الاستقراء 


التمييز الكهروضوني aunt‏ >[ 


opticalcharacter recognition — 

ذخائر لغوية فائقة الحجم 

متوالية 

سلاسل ذات تركيب كبير 

لاحقة 

كمية المعلومات المتبادلة 5 

mutualinformation 

discourse - «thal 

discourse analysis - تحليل الخطاب‎ 

machine translation - الترجمة الألية‎ 

ذْظْم الترجمة الألية - mahcinetranslation‏ 

systems 

التعبيرات الاسمية الأساسية 

فعل متعدي - untransitiveverb‏ 

quantitive analysis - التحليل الكمي‎ 

التحليل الكمي للغة - quantativelanguage‏ 

1 analysis 
counting - Axi 

ذخيرة لغوية مميكنة computerized  -‏ 

corpus 
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计算 语言 学 
记叙 文体 
监督 语料库 
检索 
检索 系统 


简约 性 和 不 爱 用 的 结构 


建立 语料库 
降序 排列 


交集 型 歧义 切 分 字段 


交集 因子 
交集 字段 
交集 字段 的 链 长 
结构 助词 
介词 短语 

经 验 主 义 

经 验 主义 
静态 频率 
句法 组 成 模板 
句 型 
句子 成 分 自动 切 分 
句子 切 分 

聚 类 

均值 

开放 测试 

可 带 宾语 的 动词 


علم اللغة الحاسوبي 
computationallinguistics‏ 


الأسلوب السردي 


ذخائر لغوية لمراقبة التغيرات اللغوية أ ' 


monitor corpus 

concordance - 41 gill 
برمجية الاستعلام‎ 

التراكيب المختصرة والتي ينذر استخدامها 

corpus building - بناء الذخيرة‎ 

ترتيب تنازلي 

سلسلة كلامية تحتاج إلى إزالة اللبس من خلال 

فصل تداخل الحدود 

العناصر المتداخلة 

سلسلة متداخلة 

طول سلسلة التداخل 

كلمات مساعدة 

تعبيرات الجار والمجرور 

المنهج التجريبي - empiricism‏ 

النز عة التجريبية - empiricism‏ 

معدل التكرار الثابت 

أنماط التركيب النحوي 

sentence pattern - أنماط الجمل‎ 

الفصل الآلي لعناصر الجملة 

تقطيع على مستوى الجمل 

Ji 

المتوسط الحسابي 

الاختبار المفتوح 

فعل مصدري متعدي 
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口语 
离散 度 
.理论 语言 学 
理性 主义 
理性 主义 
历史 比较 语言 
量词 

N 元 模型 
马尔 科 夫 假设 
描写 文体 
描写 性 定语 
名 词 形式 
名 动词 
名 量词 
模糊 范畴 
耦合 段 
耦合 长 度 
偏向 

频次 

频次 

频率 

平衡 
评价 函数 
期 望 频率 
歧义 


المستوى الشفهي من اللغة 
درجة التشتت 
علم اللغة النظري - theoretical‏ 
linguistics‏ 
المنهج العتلي - rationalism‏ 
النزعة العقلية - rationalism‏ 
علم اللغة التاريخي المتارن historical-‏ 
comparative linguistics‏ 
فرض مlركوف‏ - Markov assumption‏ 
الأسلوب الوصفي 
مُحَدْدَات للوصف 
الصيغ الاسمية 
فعل مصدري . 
كلمة كمية للاسم 
التصنيف الضبابي - fuzzy category‏ 
محور التداخل 
طول محور التداخل 
درجة تحيّز 
تكرار 
عدد مرات التكرار 
معدل التكرار - frequency‏ 
التوازن - balance‏ 
مُتواليات التقييم 
معدل التكرار المتوقع > 
expectedfrequenc‏ 


اللبس 
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Wa 

切 分 歧义 
情态 补 语 
情态 动词 
区 别 性 定语 
趋向 补 语 
权 值 

然 语言 处 理 
上 下 文 
上 下 文 信息 
上 下 文 有 关 规 则 
生 语 料 库 
体 标志 、 时 
时 态 助词 
书面 语 


输出 概率 密度 函数 


输出 无 关 假设 
数据 库 
数据 文件 
数据 噪音 
数学 分 析 
说 明文 体 
索引 

索引 

索引 表 


تمييز اللبس 

Ea‏ المبين للحالة الشعورية 
الأفعال المتصرفة . 

مُحَدْدَات للتمييز 

فعل معبر عن الاتجاه. 

weight - O53 


معالجة اللغات الطبيعية - naturallanguage‏ | 


processing 

contexts - Cll 

المعلومات السياقية . 

قواعد التحويل السياقية 

ذخيرة لغوية خام - 5نامعم» raw‏ 

علامة الزمن والحالة 

كلمة مساعدة مُعَبّرة عن الزمن 

المستوى التحريري للغة. 

المتوالية المعبرة عن كثافة مخرجات الاحتمال 
Output ProbabilityDensity -‏ 
Function‏ 

الفرض المستقل عن المخرجات output-‏ 
independence assumption‏ 

database - Gbily sacl 

ملف البيانات - 1316 data‏ 

درجة ضجيج البيانات 

التحليل الرياضي 

الأسلوب التفسيري 

search - مtعتîلا‎ 

index - فهرس‎ 

جدول مفهرس 
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索引 程序 
索引 行 的 排序 
叹 词 

特殊 化 动词 类 
特殊 用 和 途 的 语言 教学 
(KB 

条 目 

调查 

调查 词义 分 布 
通配符 

同 现 

同 质 的 语料库 
统计 测试 
统计 相关 
由 显 记 

微 结构 

维 

维 分 

LES 
WEN 

谓语 

谓语 形容 记 
文本 等 级 
文本 检索 
文本 媒介 


文本 至 语音 转换 
文学 与 语言 计算 


برمجية فهرسة - Concordance program‏ 
الترتيب المُفهؤرس للأسطر 

الأفعال التي لها سمات خاصة 

تعليم اللغة للأغراض الخاصة 

writing style - أسلوب الكتابة‎ 

المداخل اللغوية 

الاستقراء 

استقراء التوزيع الدلالي للكلمة 

اللواحق النحوية 

co-occurrence - 2! sill 
homogeneouscorpus - silid الذخيرة‎ 
الاختبارات الإحصائية‎ 

correlational - 41a) Gla! 

الكلمات ذات البروز الدلالي 

سلاسل ذات تركيب دقيق 

مؤشر 

dimention score - درجة المؤشر‎ 

اللبس الكانب 

لئس زائف 

Maal 

النعوت الخبرية 

رتبة النص 

text search - الاستعلام بالنص‎ 

وسيط النشر 

تحويل النصوص المكتوبة إلى مكافئها الصوتي 
text to sound conversion -‏ 

الدراسات الحاسوبية للأدب واللغة - literary‏ 
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TEFA 
系 动词 

系统 的 语料库 
“限定 性 定语 
相关 程度 


想象 性 文本 
向 量 
信息 量 

1 
形容 词 短 语 
形式 语法 
训练 语料库 
样本 

一 词 多 义 
疑问 
议论 文体 
因素 分 析 
引文 条 


隐 马 尔 可 夫 模 型 
应 用 词汇 学 
右 搭 配 词 
语法 学 

语 境 中 的 意义 


and linguistic computing 

إزالة اللبس الدلالي غير الموجه 

الأسماء الموصولة - 0112© 

systematiccorpus - ås ghidli 5 Ail 

al aaia 

strength of the  -  طابترالا قوة‎ 

relationship 

Imaginative text - iela ya pai 

vectors - Saidi 

الجمل المعلوماتي - الإنتروبي - مقياس درجة 

i entropy - a àl 

الضجيج المعلو ماتي 

التعبيرات الوصفية 

نظرية النحو الصوري - Formal.‏ 

Grammar 

ذخيرة تعلّم 

samples - Giz 

الكلمات متعددة الدلالة - polysemy‏ 

الاستفهام 

الأسلوب الجدلي 

factor analysis - dal gadi Jalas 

citationslips - 48g Atiu بطاقات‎ 

نموذج ماركوف الكامن - ) Hidden‏ 

Markov Model (HMM 

علم المفردات التطبيقي 1 
appliedlexicolog‏ 

التصاحب الأيمن 

grammar - sill ale 

المعنى السياقي 
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语料库 
语料库 标注 
语料库 的 保护 
语料库 的 加 工 
语料库 设计 
语料库 语言 学 
语料库 自动 分 词 
语气 词 

语 式 

语言 工程 
语言 模型 
语言 能 力 
语言 使 用 
语言 习 得 
语义 冲突 
语义 无 关 
语义 学 
语音 识别 

语 用 学 

语 域 

语 域 变 体 
BE 

BE 

Z 分 值 
粘着 组 合 


ذخيرة لغوية - 5نام01© 

ترميز الذخائر اللغوية - corpustagging‏ 
حماية الذخيرة اللغوية - . corpus‏ 
protection‏ 

معالجة الذخيرة - corpus processing‏ 
تصميم الذخيرة اللغوية - corpus design‏ 
علم الذخائر اللغوية - corpus linguistics‏ 
التمييز الآلي لكلمات الذخيرة 

كلمات اللهجة 

الشكل اللغو يي 

language engineering - ھندسة الغ‎ 
language modeling - النمذجة اللغوية‎ 
language competence - القدرة اللغوية‎ 
language performance - الأداء اللغري‎ 
language acquisition - 4al) اكتساب‎ 
التضارب الدلالي‎ 

التقارب الدلالي - affinity‏ 

عدم الارتباط الدلالي 

semantics -Ya ale 

تمييز الأصوات اللغوية 

علم اللغة التداولي - علم الاستخدام اللغوي - 
pragmatics‏ 

المستويات اللغوية - register‏ 

تنوع المستوى اللغوي 

القيمة المبدئية 

قيمة الفرض المبدئي 

اختبار زد - Z-score‏ 

bound combination - ialll التصاحب‎ 


512 


2AF 
召回 率 
HAN 
真 歧义 
真正 频率 
知识 性 文本 
智能 计算 机 
中 心 词 
逐 词 索引 


逐 词 索引 表 
逐 词 索 引 软 件 
逐 词 索引 文件 
主 从 关系 特征 
主 谓 谓语 句 
主语 

助动词 

专用 的 语料库 
转换 规则 空间 
转换 规则 模板 


转换 生成 语法 理论 


转移 概率 
状态 词 
状态 形式 
状语 


معدل الارتداد 

معدل التغطية 

اللبس الحقيقي 

لبنس حقيقي 

Truefrequency - iša Jl Jaa 
Informative text - نصوص معلوماتية‎ 
الحو اسيب الذكية‎ 

الكلمة المركزية 

الاستعلام الإحصائي السياقي عن الكلمات - 
concordance‏ 

key word in ) - الجدول السياقي للكلمات‎ 
context (KWIC 

برمجيات الاستعلام عن الكلمات 

ملف سياقات concordance file - CdS!‏ 
خصائص الإضافة 

الجملة الإسنادية 

adl iad 

helping verb - فعل مساعد‎ 

ذخيرة الاستخدام المتخصص - 50601211260 
corpus‏ 

فراغ قواعد التحويل 

نماذج قواعد التحو يل 

s النحو التحويلي التوليدي‎ 
transformational generative 
grammar 


transition probability - Jya% Jaial 
كلمة حالية‎ 

صيغة الحالة 

الحال 
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准确 率 
自动 句法 分 析 
自动 识别 
自然 语言 生成 


自由 度 

自由 组 合 
最 大 交集 字段 
左 搭配 词 


معدل الدقة 

تحليل التركيب النحوي للجمل آليّا 

التمييز الآلي 

التوليد الألي للغات الطبيعية - automatic‏ 
language generation‏ 

درجةالحريّة 

التصاحب الحر - free combination‏ 
السلسلة ذات الطول: الأكبر في التداخل 
التصاحب الأيسر 


514 


قائمة المراجع 


[1] 丁 信 善 ，《 语 料 库 语 言 学 的 发 展 及 研究 现状 》， 当代 语 言 学 
1998，1。 
الذخائر اللغوية.. مراحل التطور وواقع البحوث‎ ale” cols دينغ شين‎ 

الحالية”» مجلة (( علم اللغة المعاصر))ء العدد الأول» .٠۹۹۸‏ 

[2] Mc Enery, T,Wilson. A,Corpus Linguistics, Edinburgh 
University Press, 1996. 

[3] Crystal, D, Stylistic profiling, in RAR 1991, pp. 
221-238. 

[4] Preyer, W, The Mind of a Child, New York: Appletion, 1889. 

[5] Stem., Psychology of Early Childhood up to Six Years Old 
Age, New York: Holt, 1924. 

{6] N. Francis, A tagged corpus-problems and prospects, in 
Green-baum et al. 1980, pp.192-209. New York: Longman. 

[7] G. Kennedy, Preferred ways of putting things, in Svartvik, 
1992, pp.335-373. 

[8] C. Fries, The Structure of English: An Introduction to the 
Construction of Sentences, New York: Harcourt-Brace. 


[9] Chomosky, N. Syntactic Structures, The Hague: 
Mouton, 1957. 


515 


[10] Halliday, M. A. K. Corpus Studies and Probabilistic 
Grammar, in Aijmwe and Altenberg, 1991, pp.30- 43. 


[11] J. Svartvik, Directions in Corpus Linguistics, Berlin: Mouton 
de Cruyter, 1992. 


[12] Halliday, M. A. K. Corpus Studies and Probabilistic 
Grammar, in Aijmer and Alterberg, 1991, pp.30-43. 


. _ [13] Govindankutty,A., The computer and Dravidian linguistics, 


ALLC bulletin, 1973. 

[14] Johansson,S., Continuity and changes in the encoding of 
computer corpora, in Oostdijk&Hann, 1994,pp.13-31. 

[15] Kennedy,G.,An Introduction to Corpus Linguistic, 
London&New York: Longdon,1998. 

[16] Quirk, R., Greenbaum, S., Leech, G. and Svartvik, J. 
(1985) AComprehesive Grammar of the English 
Language, Lodon: Longman. 

[17] Sinclair, J. (1991) The automatic analysis of 
corpora, InSvartvik 1992, pp. 379-397. 

[18] G. Leech, (1991) “The State of Art in Corpus Linguistics”, in 
Aijmer and altenberg 1991, pp.8-29. 

[19] Summers, D. Longman/Lancaster English Language 
Corpus: Criteria and Design, Hariow: Longman, 1991. 


[20] 张 普 《 关 于 大 规模 真实 文本 语料库 的 基点 理论 考察 》， 语 言 
文字 与 应 用 ，1999，1。 


516 


جانغ بوء “بعض الآراء التنظيرية حول الذخائر اللغوية كبيرة الحجم”؛ مجلة 
((دراسات تطبيقية في اللغة))» العدد الأول۹۹۹۰٠.‏ 
[2\]Runddie, M., Stock. P., The corpus revolution, English‏ 
Today, 1992.‏ 
[22]Biber, D. 1993, ‘Representativness in Corpus Design’,‏ 
Literary and Linguistic Computing vol.8, No. 4:pp. 243-257.‏ 
Sinclair, J. Corpus, Concordence, Collocation.‏ ]23[ 
OxfordUniversity, 1991.‏ 
马 少 平 《 脱 机 手写 体 汉 字 识 别 方法 与 系统 》， 博 士 论文 ， 清‏ ]24[ 
华 大 学 计算 机 科学 与 技术 系 ，1997，5。‏ 
ما شاو بينغ» ((طرق تمييز الرموز الصينية المكتوبة بخط اليدوأنظمتها))» 
رسالة دكتوراة» aud‏ علوم وتكنولوجيا الحاسب الآلي بجامعة تشين خواء 
مايوء ۱۹۹۷. 
国 家 语言 文字 工作 委员 会 汉字 处 《现代 汉语 常用 字 表 》 ， 语‏ ]25[ 
文 出 版 社 。‏ 
قسم الرموز الصينية باللجنة القومية للأعمال الخاصة باللغة التحريريةء 
والأدب. 
Walker, D.E., The Ecology Of Language, in The‏ ]26[ 
Proceedings of Intemational Workshop on Electronic.‏ 
Dictionaries, 1990,OisoJapan. |‏ 


[27] Quirk, R. ,Towards a description ‘of English Usage, 
Transaction of Philological Society, pp.40-61. 


517 


[28] Francis, W. N. ,Kucera, H. Frequency Analysis of English 
Usage: Lexicon and Grammar Boston: Houghton Miffin. 


[29] Greene, B. B. Rubin, G. M. Automatic grammatical tagging 
of English, Providence, R. l.: Department of Linguistics, 
BrownUniversity. 


[30] Brown Corpus: http:// khnt. hit. uib. no/icame/ manuals/ 
brown/ index.htm. 

[31] Johanson, S., Atwell, E., Carsid, R. And Leech, G. 1986. 
The tagged LOB corpus: Users Manual, Norwegian 
Computing Center for The Humanities, Bergen. 

[32] Johanson, S. (ed.) Computer Corpora in English Language 
Research, Bergen: Norwegian Computing Centre for the 
Humanities, 1982. 

[33] Johanson, S., Hofland, L.,FreauencyAnalyais of English 
Vocabulary and Grammar 2 vols. Oxford: Clarendon 
Press. 

(34] Svartvik, J. (ed.) The London-Lund Corpus of Spoken 
English: Description and Research Lund: Lund Studies in 
English 82. LundUniversity Press. 

(35] The Bank of English, http:// titania. Cobuild.Collins.co. uk/ 
boe- info- html. 

[36]Collins COBUILD English Dictionary, Collins COBUILD. 

[37]Della Summers, Longman Group UK, Longman/Lancaster 
English Language Corpus-Criteria and Design, 
International Joumal of Lexicography, Vol. 6 No. 3: pp. 
181-208. 


518 


[38]British National Corpus, Http:// info.ox.ac.uk./Bne. 


[39] The Intemational Corpus of English http:/Avww.ucl.ac.uk/ 
English-usage/ice.htm. 


[40] 陈 鹤 琴 ，《 语 体 文 应 用 字汇 》， 商 务 印 书馆 ，1982。 
تشن خه تشين» ((قائمة الرموز المستخدمة في الأساليب اللغوية المختلفة))؛ ذال‎ 


النشر التجارية» .٠۹۸۲‏ 


[41] 


王 还 、 常 宝 儒 等 《现代 汉语 频率 词典 》， 北 京 语言 学 院 出 版 


社 ，1986。 


وانغ خوايء وتشانغ باو رو» وآخرون» ((معجم معدل تكرار الكلمات في اللغة 
الصينية الحديثة))» دار نشر معهد اللغات الأجنبية AIAT eSa‏ 


[42] 陈 原 ，《 现 代 汉语 定量 分 析 》， 上 海 教育 出 版 社 ，1989。 
تشن يوان» ((التحليل الكمي للغة الصينية الحديثة))ء دار النشر التعليمية‎ 
.۱۹۸۲ بشنغهاي»‎ 
[43] 台 湾 中 央 研 究 院 平衡 语料库 ， http://godel.iis.sinica edu tw 
الذخيرة المتوازنة لمعهد الدراسات المركزي بتايوان»‎ 
http://godel.iis.sinica.edu.tw 
[44] Huang, Chu-Ren and Keh-Jiann Chen, Modem and 
Classical Chinese Corpora at Academic Text Databases 
for Natural Language Proccessing and linguistic 
Computing, Presented at the Sixth CODATA Task Group 
Meeting on the Survey of Data Sources in Asian-Oceanic 
Countries (Taipei: Academic Sinica, 1994). 


519 


[45] Huang, Chu-Ren and Ken-Jiann Chen, Modem and 
Classical Chinese Corpora at Academic Sinica Text 
Databases for Natural Lamguage Processing and 
Computing, Presented at the Sixth CODATA Task group 
meeting on the Survey of Data Sources in Asian-Oceanic 
Countries (Taipei: Academic Sinica, 1994. 

[46] K. J. Chen, C. R. Huang,L.P. Chang, H.L. Hsu, 1996, 
“SINICA CORPUS: Design Methodology for Balanced 
Corpora” Proceedings of PACLICLL, pp. 167-176, 
Seoul,Korea. | 

[47] 香 港 城市 大 学 语言 咨询 科学 研究 中 心 《中 文 各 地 区 共 时 词语 
研究 报告 》，1998，5。 
مركز الاستشارات اللغوية العلمية بجامعة المدينة بهونج كونج» ((تقرير‎ 
بحثي تزامني عن المفردات في خمس مناطق ناطقة باللغة الصينية))» دار‎ 

النشر التجارية, .94AY‏ . 

[48] 孙 茂松 、 黄 建 平等 《现代 汉语 语料库 系统 鉴定 会 文件 》，199 
6，1。 1 
سوين ماو سونغ» وخوانغ جيان بينغ»وآخرونء ((محضر الاجتماع الخاص‎ 

باعتماد برمجية ذخيرة اللغة الصينية الحديثة))ءيناير» NAAT‏ 

[49] 王 建新 ，《 索 引 软 件 : 语料库 语言 学 的 有 利 工 具 》， 当 代 语 
言 学 ，1998，1。 

RD A ole i bio gd he Chae Ou 
.٠۹۹۸ مجلة ((علم اللغة المعاصر))» عدد ینایر»‎ 

[50]Biber, D. ,Finegan,E., Intra-textual variation within medical 

research articles, in Oosdijk& de Haan, pp.201-222 


520 


[51]Kjellmer, G. (1991) ‘A mint of phrases’, in aijmer and 
Altenberg 1991,pp. 111-127. 


[52] 朱 雪 龙 、 艾 红 梅 《应 用 信息 论 基 础 》， 清 华 大 学 内 部 教材 ，1 

。998 
جو شوي لونغء وآي خونغ ميء ((مبادئ نظرية المعلومات التطبيقية))» 
مقرر دراسي خاص بجامعة تشين خواء .144A‏ 


[53]Leech,G.(1992),Corpora ad theories of linguistic 
performance, inJ.Svartvik 1992,pp. 149-163. 


[54]JLariK.Young S. Applications of stochastic context-free 
grammars using the inside-outside algorithm,In: Computer 
Speech & Language 1991,5,pp.237-257. 


[55] Pereira,F.,Schabes,Y. Inside-outside reestimation from 
partially bracket corpora,In: Proceedings of the 30" Annual 
Meeting of the Association for Computational Liguistics, 
University of Delaware, Newark, Delaware, USA, 1995, 
pp.128-135. 


[56]EngenceCharniak, Statistical Language Learning, The MIT 
Press, London, England. 

[57] John Sinclair, Longuageindepenent statistical software for 
corpus exploration. Coputers and the Hemanities, 1998, 

_-Vol.31, pp. 229-255. 

[58]Garside,R., Leech,G., McEnery, A., Corpus Annotation, 
Longman & New York,1997. 


521 


[59] 
刘 开 瑛 《中 文 文本 自动 分 词 和 标注 》， 北 京 ， 商务 印 书馆 ， 
2000。 

ليو كاي يينغ» ((التمييز الآلني لحدود الكلمات داخل النصوص الصينية 

وترميزها))؛ بكين: درا النشر التجاريةء .٠٠٠٠١‏ 

[60]Ellegard, A. (1978) The syntactic structure of English texts: 
A computer-based study of four kinds of text in Brown 
University Corpus. Guéteborg: Gothenburg Studies in 
English 43. 

[61] Van Halteren, H., Oostdijk, N.,Towards a syntactic 
database: The TOSGA analysis system> In Arts et al> 
1993, pp. 145-162. | 

[63] The Penn Treebank Project, 
http://www.cis.upenn.edu/~treebank/home.html. 

[64]Chelba, C. , Exploiting Syntactic Language Structural for 
Language Odeling, A Dissertation of 
JohnHopskinUniversity, January, 2000. 

[65]Collins, M. J., A New Statstical Parser Based on Lexical 
Dependencies, The 34" Annual Meeting of the ACL, Santa 
Cruz, Califomia 1996. 

[66]Jelinek, F., Laffertyy, J. And Mercer, R., et al, Decision Tree 
Parsing Using a Hidden Derivation Model, the proceedings 
of the 1994 Human Language Technology Workshop, pp. 
272-277. 


522 


[67] Richardson, S. D., Dolan, W. B., Vandewende, L., MindNet: 
‘Aquiring and Struturing Semantic Information from Text, 
ACL'98, vol. 2, pp.1098-1102. 

[68] Church K., Gale, W., Hanks, P. And Hindle, D., Using 
Statistic in lexical analysis, in Souter and Atwell 1993, pp. 
85-96. 

[69] Schmidt, K. M. Qualitative and quantitive research 
approaches to English constructions, in Souter and Atwell 
1993, pp. 85-96. 

[70]Mindt, D. Syntactic evidence for semantic distinctions in 
english, Aijmer and Altenberg 1991, pp: 182-196. 

[71]Stenstorm, A. B. Carry on signals in English conversation, 
in Meijs 1987, pp. 87-119. 

[72] 赵 淑 华 《 现 代 汉 语句 型 统计 与 研究 》， 成 果 报告 ， 北 京 语言 
文化 大 学 ，1995，4，10。 

جاو شو خواء ((إحصاء أنماط الجمل في اللغة الصينية الحديثقودراستها))؛ 
تقرير عن نتائج بحثيةء جامعة اللغات والثقافة ببكين» إبريل» ©155. 
AHI 88136: http://ref.umd!.umich.edu/a/ahd/sample.htm —‏ ]73[ 
ذخيرة إيه إتش AHI csi‏ 
http://ref.umdl.umich.edu/a/ahd/sample.htm‏ 

[74] Carroll, J.B., Davies, P. And Richman, b. The American 
heritage Word Frequency Book, New York: American 
Heritage Publishing Co. 


523 


[75] Collins Cobuild English Language Dictionary, 1987, 
London, Collins. 

[76] 黄 居 仁 、 陈 克 健 等 《国语 日 报 量词 典 》， 台 北 : 国语 日 报社 
，1997。 
خوانغ جو رنء وتشن كه جيان»؛ ((معجم الكلمات الكمية المستخدمة في‎ 

جرائد تايوان))» تاي بيه» دار نشر الجرائد التايوانيةء۹۹۷۰٠.‏ 

[77] Firth, J. R., A synopsis of linguistic theory, 1930-1955, in 
studies in Linguistic Analysis Oxford: Blachwell. | 

[78] Essex, (new ed) Longman dictinary of contemporary 
English, England: Longman. oe 4 

[79] Summers, D. Longman language Activator, 1993, 
Longman. | 

[80] Biber, D., Finegan , E., On the exploitation of computerized 
corpora in variation studies, in Aijmer&Altenberg, 1991, pp. 
_ 204-220. 

[81] Benson, M., Benson, E. And Ilson, R., The BBI 
Combinatory Dictionary of English, Amsterdam: John 
Benjamins Publishing Co., 1986. 

[82] Benson, m., A Combinatory Dictionary Of English, 
Dictionaries:Journal Of The Dictionary Society Of North 
America, 7. 

[83] 

张 寿康 、 林 杏 光 《现代 汉语 实 词 搭配 词典 》， 北 京 : 商务 印 
书馆 ，1992。 


. 4 


جانغ شو GUS‏ ولين تشي جوانغ» ((معجم تصاحبات الكلمات الحقيقية في 

اللغة الصينية الحديثة))ء OŚ‏ دار النشر التجارية 9441. 

[84]Choueka, Y., Klein, T., and Neuwitz, E., Automatic retrieval 

of frequent idiomatic and collocation expressions in a large 
corpus, Journal of Literary and linguistic Computing, 4. 


[85] Church, K., Hanks, p., Word association, Mutual 
Information and Lexicography. In proceedings of 
27 "Annual meeting of Association for Computational 
Linguistics, 1989, pp. 76-83. 

[86] Smadja, f., Retrieving Collocation from Text: Xtract, 
Computational linguistics, vol. 19, No.1. 

[87] 
孙 茂 松 等 《汉语 搭配 定量 分 析 初 探 ) ， 中 国语 文 ，1997，1 


سوين ماو سونغ وآخرونء “دراسة أولية عن التحليل الكمي للتصاحبات 
اللغوية في اللغة الصينية”. مجلة ((اللغة والأدب في الصين))؛ يناير» 
.144Y‏ 
Ahrens，Kathleen and Chu-Renhuang，Classifiers and‏ ]88[ 
semantic Type Coercion: Motivating a new Classification‏ 
of classifiers, In. B.-S. Park and J. B. Kim.eds. Proceeding‏ 
Of the 11" pacific Asia Conference on Language,‏ 
Information and Computation (Seoul: Kyung Hee‏ 
University, 1996), pp. 1-10.‏ 
Shannon, C. A mathematical theory of communications,‏ ]89[ 
Bell System Technical Journal, 1949.27, pp. 623-656.‏ 


525 


[90] Bible, D., Conrad, S. And Reppen, R., Corpus-based 
Approaches to issues in applied linguistics, Applied 
Linguistics vol. 15, No.2, pp. 169-189. 

[91]Biber, D., Variation across Speech and Writing, Cambridge: 
CambridgeUnivesity Press, 1988. 

[92] 

刘 开 瑛 《自动 分 词 与 词性 标注 评测 》， 计 算 机 世界 ， 评 测 专 

版 ，1996，3，25。 

ct of‏ لحدود الكلمات الصينية 

والترميز الآلي لأنواع الكلمات))؛ بكين» دار نشر عالم الكمبيوترء نسخة 
خاصة للتقييم» مارس»: NAA‏ 

]93[ 

孙 成 松 、 黄 昌 宁 等 《零用 汉字 二 元 语法 关系 解决 汉语 自动 分 

词 中 交集 型 歧义 》， 计 算 机 研究 与 发 展 ，1997 年 ， 第 34 卷 

第 5 期 。 

سوين ماو سونغ» وخوانغ تشانغ نينغ» وآخرونء “استخدام نحو العلاقات 

الثنائية بين الرموز الصيئية في إزالة اللبس المركب عند التمييز الآلي لحدود 

الكلمات الصينية”» مجلة ((دراسات في تطوير علوم الحاسب))ء العدد 
الخامس من المجلد ,١991 FE‏ 

[94] 

吴 劳 芳 《 自 动 分 词 中 歧义 字段 切 分 方法 研究 》 ， 硕 士 论文 ， 

山西 大 学 ，1998。 

وو فانغ فانغ» ((دراسات في منهجيات تقسيم مقاطع الرموز الصينية التي 

تمثل لبعئا في أثناء التمييز الآلي لحدود الكلمات الصينية))ء رسالة ماجستيرء 
جامعة شان شي» ۱۹۹۸. 


526 


[95] 
左 正平 《汉语 自动 分 词 中 的 若干 问题 》， 清 华 大 学 计算 机 科 
学 与 技术 系 硕士 论文 ，1998，6。 
زوه جنغ بينغ» ((بعض مشكلات التمييز الآلي لحدود الكلمات الصينية))»‎ 
رسالة ماجستير بقسم علوم الحاسب والتكنولوجيا بجامعة تشين خواء يونيه»‎ 
NAGA 
[96] 
孙 茂 松 、 左 正平 《汉语 真实 文本 中 的 交集 型 歧义 》， 汉 语 计 
量 与 计算 研究 ，1998。 | 
سوين ماو سونغ» وزوه جنغ بينغ» “لبس السلاسل المتداخلة في. النصوص‎ 
((دراسات إحصائية وحاسوبية عن اللغة الصينية))؛‎ Aiia الصينية‎ 
.144A 
[97] Church, K., A stochastic parts program and noun phrase 
parser for unrestricted text, In: Proceedings of the Second 
Conference on applied Natural Language Processing, 
1988. i 
[98] . > 
李 文 捷 、 潘 海 华 等 ，《 基 于 语料库 的 中 文 最 长 名 词 短语 的 自 
动 抽 取 》， 陈 力 为 、 袁 琦 编 : 《计算 语言 学 进展 与 应 用 》， 
北京 : 清华 大 学 出 版 社 ，1995， pp.119-125。 
لي وين جييه» وبان خاي خواء ((الاستخراج الآلي للتعبيرات الاسمية‎ 
الطويلة في اللغة الصينية اعتماذا على ذخيرة لغوية))؛ تشن لي واي» ويوان‎ 
((تطور تطبيقات علم اللغة الحاسوبي))؛ بكين» دار نشر جامعة‎ cole تشي‎ 
Yo صفحة‎ ۱۹۹٩ تشين خواء‎ 


527 


[99] 

赵 军 《汉语 基本 名 词 短语 的 识别 和 结构 分 析 研究 》， 博 士 论 

文 ， 清 华 大 学 计算 机 科学 和 技术 系 ，1998。 

جاو جوين» ((التعبيرات اللغوية الاسمية الأساسية في اللغة الصينية دراسة 

في التمييز الآلي والتحليل البنائي))» رسالة دكتوراة» قسم علوم الحاسب 
والتكنولوجيا بجامعة تشين خواء AAAA‏ 

[100] 
张卫国 《三 种 定语 、 三 类 意义 及 三 个 档 位 》， 中 国人 民 大 学 
学 报 ，1996，No.4，pp.97-100。 
جانغ وي قوه“ثلاثة حلول لثلاثة أنوع من المحددات؛ وثلاثة أنواع من‎ 
ء٠۹۹٩ المعنى”: ((المجلة العلمية لجامعة الشعب الصينية))» العدد الرابع»‎ 

. ٠٠١١-۹۷ صفحة‎ 

[101] Brill, E. Transformation-based error-driven learning and 
natural language processing: a case study in part-of- 
speech tagging, In: Comutational Linguistics, V21. No.4, 
1995. 

[102] Ramshaw, L., Marcus R. Text chunking using 
transformation-based leaming, In: Proceedings of the 
Fourth Wrkshop on Very Large Corpus, 1995, pp.82-94. 

[103] Lesk, Michael, Automated sense disambiguation using 
machine-readable dictionaries: How to tell a pine cone 
from an ice cream cone. In Proceeding of the 1986 
SIGDOC conference, pp. 24-26. 


528 


[104] Wilks, Yorick A. and Dan Fass. Preference semantics: A 
family history. Report MCCS-90-194, Computing Research 
Laboratory, New MexicoStateUniversity, Las Cruces, NM. 

[105] Yarowsky David, Word sense disembiguation using 
statistical model of Roget’s categories trained on large 
corpora. Proceedings of the 14" International Conference 
on Computational Linguistics, COLING’92, pp.454-460, 
Nantes, France, 1992, August. 

[106] D.Yarowsky, Decision Lists for Lexical Ambiguity 
Resolution: Application to Accent Restoration in Spanish 
and French. In: proc 32™ Annual Meeting of Association 
for Computational Linguistics, 1994, pp.88-95. 

[107] Bruce R., A Statistical Method for Word Sense 
Disambiguation, [Ph.D.Dissertation] USA: New 

| MexicoStateUniversity, 1995, pp. 

[108] 

梅 家 驹 、 竺 一 鸣 、 高 将 琦 《同义词 次 林 》， 上 海 ， 上海 辞书 

-出 版 社 ，1983。‏ 
مي جيا جوء وجو يي مينغ» وجاو وين تشيء ((معجم غابة المترادفات)), 
شنغهاي» دار نشر المعاجم بشنغهاي» NAAT‏ 

[109] Firth, J.R. 1957.Modes of Meaning.Papers in Linguistics 
1934-1951, pp. 190-215, OxfordUniversity Press, Oxford, 
UK. 


529 


١ © e,t 
المؤلف في سطور“‎ 
املف الرئيس لهذا الكتاب هو الأستاذ الدكتور خوانغ تشانغ نينغء‎ 
أحد أشهر علماء اللغة الحاسوبيين في الصين. ولد خوانغ تشانغ نينغ عام‎ 
LS yall aud تخرج في‎ ١ في مقاطعة جوانغ دونغ» في عام‎ ۷ 
سافر في بعشة إلى‎ ۱۹۸١ الكهربية بجامعة تشينغ خوا ببكين. وفي عام‎ 
بالولايات المتحدة الأمريكية لمدة عام» وعمل‎ (Yale University) Jy جامعة‎ 
NAAN ale في التدريس لمدة عام بجامعة العلوم والتكنولوجيا بهونج كونج‎ 
وفي عام ٩۱۹۹ء عمل مدير لمركز أبحاث شركة ميكروسوفت في الصين.‎ 
وينظر إليه الصينيون باعتباره ممهد الطريق لتوطين علوم المعالجة الآلية‎ 
للغات الطبيعية في الصين. في سبعينيات القرن العشرين ذاع صيته كأستاذ‎ 
متميز في جامعة تشينغ خوا عندما الف مُقرّر (دوائر الترانزستور)؛ حيث‎ 
حقق هذا المقرر مبيعات زادت عن مليون نسخة داخل الصين. وبعد ذلك»‎ 
قدّمَ ترجمة لكتابين أحدثا أثرًا كبيرًا في المجتمع العلمي الصيني هما كتاب‎ 
ليملا‎ «(LISP (مبادئ الذكاء الاصطناعي).؛ وكتاب (البرمجة باستخدام لغة‎ 
بذلك الفراغ العلمي الموجود في تلك الفترة.‎ 
وقد وصل خوانغ تشانغ نينغ إلى قمة أخرى من قمم الشهرة العلمية‎ 
عندما عمل في حقل الدراسات المتعلقة بعلم معالجة اللغات الطبيعية؛ حيث‎ 


)١(‏ ملحوظة: الكتاب الأصلي لا يحتوي على تعريف بالمؤلف» ولذلك تم التعريف به في مقدمة المترجم. 
بالإضافة إلى كتابة هذا التعريف في نبذة مستقلة. 
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بدأ بتنظيم مجموعات بحثية داخل الصين وخارجها في هذا المجال» ثم تولى 
رئاسة العديد من المؤتمرات الدولية وهيئات المبرمجين في مجال المعالجة 
الآلية للغات الطبيعية. ويتولي خوانغ تشانغ نينغ الآن رئاسة تحرير (المجلة 
العلمية للمعلوماتية الصينية)؛ بالإضافة إلى كونه مُحكمًا وعضو هيئة تحرير 
العديد من المجلات العلمية الدولية؛ مثل: (المجلة التخصصية في معالجة 
المعلومات باللغات الآسيوية (ACM‏ المتحدة الأمريكيةء و (النشرة 
الدورية لجمعية معالجة المعلومات باللغة الصينية واللغات الشرقية) 
بسنغافورة» ومجلة (معالجة اللغات الطبيعية) باليابان» ومجلة (دراسات نقدية 
حول علم اللغة في الصين) بهونج كونجء ومجلة (علم اللغة الحاسوبي 
ومعالجة اللغات الصينية) بتايوان!". 

وقد شارك خوانغ تشانغ نينغ في مشروعين بحثيين في إطار الخطة 
الخمسية السابعة للحكومة الصينية عام ١۱۹۸ء‏ هما: مشروع "الفهم الآلي 
للغات الطبيعية والبرامج البينية بين الإنسان والآلة' وكان ذلك في نطاق 
مشروعات العصف الذهني» ومشروع 'تقنيات الفهم الآلي للنصوص 
العسكرية" في نطاق المشروعات البحثية المستقبلية للدفاع الوطني بالإضافة 
إلى مشروع 'نظام للترجمة الآلية بين اللغتين الصينية واليابانية" بالتعاون بين 
جامعتي تشينغ خوا ونانكين الصينيتين. وقد حصل هذا المشروع على المركز 





)١(‏ لمزيد من المعلومات عن المؤلف» انظر الموسوعة الصيئية على الرابط التالي:. 
http://baike.baidu.com/view/1615502.htm‏ 
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الثاني في مجال تطوير العلوم والتكنولوجيا من لجنة التعليم بالحكومة 
الصينية. ۰ 


وقد سبق أن تولى خوانغ تشانغ نينغ رئاسة الفريق البحثي الصيني 
GE il‏ من وزارة الصناعات الإلكترونية الصينية للمشاركة في مشروع 
الترجمة الآلية متعدد اللغات الذي رصدت له الحكومة اليابانية خمسين مليون 
دولار أمريكي عام ١414٠‏ لتطوير نظام للترجمة الآلية بين لغات خمس دول 
آأسيوية هي: اليابان» والصينء وماليزياء وسنغافورة» وتايلاند. 

وفي عام ١194©‏ شارك في مشروع بحثي للترجمة الآلية بين اللغتين 
الإنجليزية والصينية ممثلا عن جامعة تشينغ خوا الصينية بالتعاون مع شركة 
© الأمريكية. كما نجح مع فريقه البحثي في .بيع حقوق الملكية الفكرية 
لعدد من النتائج البحثية لشركتي آي بي إمْ „Microsoft Så gu 3 Sza g IBM‏ 

لي جوان تري 

تخرجت عام ١185‏ في قسم علوم الحاسب والتكنولوجيا بجامعة شان شي 
الصينيةء وحصلت على الدكتوراه عام ٠٠٠١‏ في التخصص ذاته من جامعة تشينغ 
خواء وعملت منذ عام ٠٠١١‏ بقسم الحاسب بجامعة تشينغ خواء وتشغل منذ ٠١٠١54‏ 
منصب نائب رئيس مركز بحوث البرمجيات التابع لقسم علوم الحاسب 
والتكنولوجيا بالجامعة نفسهاء كما أنها عضو بجمعية الحاسب الصينية منذ عام 
Yoye‏ 

أهم توجهاتها البحثية معالجة المعلومات باللغة الصينية» واكتشاف المعارف 
وإدارتها في بيئة الإنترنت»ء شاركت أكثر من مرة كعضو رئيس في مشروعات 
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الحكومة الصينية في مجال المعلومات؛ حيث عملت في الفترة من 1995-١99٠‏ 
كمسؤول رئيس عن المشروع البحثي ل. "التحليل الآلي للجمل في اللغة الصينية"؛ 
كما عملت باحثًا رئيسًا في المشروع الرئيس للحكومة الصينية في مجال العلوم 
الطبيعية عن "النظريات والمنهجيات والأدوات البحثية المستخدمة في علم الذخائر 
"A pall‏ وذلك في الفترة من .١11434-1١557‏ وحازت عام ١114‏ على جائزة 
التقدم التكنولوجي من الدرجة الأولى من مقاطعة شان شي. 
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المترجم في سطور 


أستاذ الترجمة واللغويات الحاسوبية» بقسم اللغة الصينية» بكلية الألسن 

- جامعة عين شمس. 
حصل على ماجستير الألسن في الترجمة التحريرية VAAN ple‏ 
حصل على دكتوراه الألسن"في اللغويات التقابلية بين الصينية والعربية 

عام VAY‏ 
حصل على درجة أستاذ في الترجمة واللغويات الحاسوبية عام .5١١١‏ 
شارك في تأسيس قسم.اللغة إلصينية بكلية الآداب جامعة القاهرة عام 

eed 

الإنتاج العلمي البحثي: 

. قام بتأليف ونشر العديد من الأبحاث في مجال اللغويات التطبيقيةء 

. والترجمة» واللغويات الحاسوبية» نذكر منها على سبيل المثال: 

-١‏ 'إشكاليات تهيئة الذخائر اللغوية وبنائها حاسوبيًا: اللغكان العربية 
والصينية نموذجا" (نشر في مجلد المؤتمر الثاني عشر لمعالجة 
المعلومات بلغات القوميات الأقلية بالصين). 

ely 一‏ قاعدة بيانات للتصاحب اللغوي في الصينية والعربية: دراسة 
إحصائية حاسوبية" (نشر في مجلد أبحاث المؤتمر الدولي التاسع لتعليم 
اللغة الصينية للأجانب بالصين» وحصل على جائزة البحوث المبتكرة). 
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“- 'قواعد البيانات الإلكترونية وتطوير صناعة المعاجم المتخصصة ثنائية 
اللغة". 

- "إشكاليات ترجمة أسماء الأعلام بين اللغتين الصينية والعربية". 

ه- "اتجاه جديد لتعليم الرموز الصينية انطلاقا من المدخل المنظومي 
التعليم والتعلم" (نشر في مجلد أبحاث المؤتمر الدولي الثامن لتعليم اللغة 

5- "الجامعة العربية المفتوحة وتعليم اللغات الأجنبية: اللغة الصينية 
نموذجا". 

۷- "المدخل المنظومي والوسائط المتعددة في تعليم وتعلم الترجمة الفورية". 
قام بتأليف عدد من المقررات الدراسية في اللغويات التطبيقية 

والترجمة: 

١‏ - (محاضرات في الاستماع باللغة الصينية). 

- (مبادئ الترجمة التحريرية من الصينية إلى العربية). 

*- (الجملة المركبة بين اللغتين الصينية والعربية: دراسة تقابلية). 


en 


الإنتاج في مجال الترجمة: 

ترجمة كتاب (فن الحرب: النص الأصلي لسون تزي وشروحه 
المعاصرة)» صدر ضمن أعمال المشروع القومي للترجمة)› العدد ٦۷‏ 
l Yeo‏ 
الصينية Yesoe alc‏ 
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تبظيم أربع ورش عمل في الترجمة التخصصية لإعداد كوادر من ' 
الطلاب بكلية الألسن جامعة عين شمس» نتج عنها أربعة أعداد من مجلة 
الجسر التي يرأس تحريرها. 

تخطيط ورشة للترجمة التخصصية عن اللغة الصينية وتنفيذها» التي 
انعقدت في المركز القومي للترجمة في العام التدريبي ON‏ 

تنظيم دورة صيفية مجانية لمدة ثلاثة أشهر لعدد 4 طالبًا وطالبة من 
قسم اللغة الصينية بكلية الألسن جامعة عين شمس للتدريب على مهارات 
الترجمة من خلال فريق عملء ونتج عن الدورة ترجمة كتاب في ٠١‏ 
صفحة من اللغة الصينية بعنوان ( كيف يربح أبناؤنا في عصر الإنترنت). 
تأسيس جماعة رؤية للترجمة من اللغة الصينية من طلاب قسم اللغة 
الصينية بكلية الآداب جامعة القاهرة عام ٠٠٠٠ء‏ وكان أول عمل تمت 
ترجمته كتاب (قطوف من الحكمة الصينية). . 

مراجعة كتاب (كيف تجعل أبناعك يحبون الدراسة)ء تأليف يانغ شياء 
ترجمة مي عاشورء والذي صدر ضمن أعمال المشروع القومي للترجمةء 
العدد ۱۹۲۳۰ VON) ple‏ 

الإشراف على إعداد عدد منالمترجمين عن اللغة الصينية من خلال 
اقتراح سلسلة من الكتب المتخصصة باللغة الصينية» وترشيح المترجمين 
الجذد وتدريبهم. 

ترجمة سلسلة من المقررات الدراسية لتعليم اللغة الصينية للناطقين 
باللغة العربية» بعنوان (اللغة الصينية في مائة محاضرة). 
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التصحيح اللغوى. : نعي عاش ور 
الإشراف‌الفنی: y‏ كال 


